Отрывок: Совместное распределение тогда выглядит так: (2) В отличие от обычной кластеризации с априорным распределением Дирихле или обычным распределением Байеса, мы не выбираем кластер один раз, а затем «накидываем» слова из этого кластера, а для каждого слова сначала выбираем по распределению θ тему, а уже потом «набрасываем» это слово по данной теме. [18] В ходе работы э...
Название : | Разработка и исследование алгоритмов кластеризации данных сверхбольшого объема |
Авторы/Редакторы : | Рыцарев, И.А. Благов, А.В. |
Ключевые слова : | алгоритмы кластеризации данных данные сверхбольшого объема текстовый анализ k-means tf-idf метрика lda метод судьи |
Дата публикации : | 2017 |
Издательство : | Новая техника |
Библиографическое описание : | Рыцарев И.А. Разработка и исследование алгоритмов кластеризации данных сверхбольшого объема / И.А. Рыцарев, А.В. Благов // Сборник трудов III международной конференции и молодежной школы «Информационные технологии и нанотехнологии» (ИТНТ-2017) - Самара: Новая техника, 2017. - С. 1774-1777. |
Аннотация : | Работа посвящена исследованию алгоритмов кластеризации текстовых данных. В качестве объекта исследования были выбраны данные социальной сети Twitter. Собирались, обрабатывались и анализировались при этом текстовые данные. Для решения задачи получения необходимой информации были проведены исследования в области оптимизации сбора данных социальной сети Twitter. Разработано программное средство, обеспечивающее сбор необходимых данных из заданных геолокаций. Исследованы и апробированы существующие алгоритмы кластеризации данных, преимущественно большого объема. |
URI (Унифицированный идентификатор ресурса) : | http://repo.ssau.ru/handle/Informacionnye-tehnologii-i-nanotehnologii/Razrabotka-i-issledovanie-algoritmov-klasterizacii-dannyh-sverhbolshogo-obema-64149 |
Другие идентификаторы : | Dspace\SGAU\20170523\64149 |
Располагается в коллекциях: | Информационные технологии и нанотехнологии |
Файлы этого ресурса:
Файл | Описание | Размер | Формат | |
---|---|---|---|---|
paper 319_1774-1777.pdf | Основная статья. Раздел: Наука о данных | 832.21 kB | Adobe PDF | Просмотреть/Открыть |
Показать полное описание ресурса
Просмотр статистики
Поделиться:
Все ресурсы в архиве электронных ресурсов защищены авторским правом, все права сохранены.