Отрывок: В качестве веса рёбер указывается количество встреч между словами. При дообучении в граф вносится новая порция обработанной информации. Но так как вес у новой связи изначально будет ниже чем у тех, которые уже были в графе, то для компенсации вводится новая структура у каждого узла, представленная в виде стека слов (𝐾 = 𝑘1𝑘2𝑘3 … 𝑘𝑚, где 𝑘𝑗 – отдельно взятое слово из стека). В ней хранятся последние связ...
Название : | Построение графа последовательности текстовых единиц для создания системы генерации предложений |
Другие названия : | Building a graph of a sequence of text units to create a sentence generation system |
Авторы/Редакторы : | Каминский, М.П. Рыцарев, И.А. Куприянов, А.В. |
Дата публикации : | 2020 |
Библиографическое описание : | Каминский М.П. Построение графа последовательности текстовых единиц для создания системы генерации предложений / М.П. Каминский, И.А. Рыцарев, А.В. Куприянов // Информационные технологии и нанотехнологии (ИТНТ-2020). Сборник трудов по материалам VI Международной конференции и молодежной школы (г. Самара, 26-29 мая): в 4 т. / Самар. нац.-исслед. ун-т им. С. П. Королева (Самар. ун-т), Ин-т систем. обраб. изобр. РАН-фил. ФНИЦ "Кристаллография и фотоника" РАН; [под ред. В. А. Фурсова]. – Самара: Изд-во Самар. ун-та, 2020. – Том 4. Науки о данных. – 2020. – С. 864-869. |
Аннотация : | Статья посвящена разработке системы анализа текстовых данных. Рассмотрен подход представления текста из постов отдельно взятой страницы в виде графа ключевых словосочетаний, при помощи которого в последствии будут строиться цепочки слов, схожие по стилистике написания с текстами автора. В рамках работы реализованы: сбор, фильтрация и обработка данных с использованием технологии Big Data. The article is devoted to the development of a text data analysis system. The approaches to the presentation of text from the posts of a single page in the form of a dictionary of phrases are considered. Within the framework of the work, data collection, filtering and processing using Big Data technologies were implemented. |
URI (Унифицированный идентификатор ресурса) : | http://repo.ssau.ru/handle/Informacionnye-tehnologii-i-nanotehnologii/Postroenie-grafa-posledovatelnosti-tekstovyh-edinic-dlya-sozdaniya-sistemy-generacii-predlozhenii-85074 |
Другие идентификаторы : | Dspace\SGAU\20200805\85074 |
Располагается в коллекциях: | Информационные технологии и нанотехнологии |
Файлы этого ресурса:
Файл | Описание | Размер | Формат | |
---|---|---|---|---|
ИТНТ-2020_том 4-864-869.pdf | 536.64 kB | Adobe PDF | Просмотреть/Открыть |
Показать полное описание ресурса
Просмотр статистики
Поделиться:
Все ресурсы в архиве электронных ресурсов защищены авторским правом, все права сохранены.