Морозов Е.В, Богданова Д.Н
В настоящей работе представлен корпус записей русскоязычных блогов с информацией о местоположении автора, а также проведено исследование методов машинного обучения для автоматического определения региона автора. Для создания корпуса использовалась коллекция текстов блоговой платформы Живой Журнал (http://livejournal.com). Регионы авторов были приведены к единому виду, после чего из них были выбраны регионы с наибольшим количеством текстов. Корпус был очищен от выбросов – текстов, не представляющих интереса с точки зрения данного исследования. В данном исследовании были изучены различные наборы признаков, размеры обучающих коллекций и методы машинного обучения. Проведённые эксперименты показали, что большая часть текстов не содержит достаточно информации для определения региональной привязки, однако имеется существенная часть текстов, пригодных для региональной классификации.
Библиографическая ссылка
Морозов Е.В, Богданова Д.Н ОПЕРЕДЕЛЕНИЕ РЕГИОНА АВТОРА ПО ДАННЫМ ЖИВОГО ЖУРНАЛА // Научное обозрение. Физико-математические науки . 2020. № 1. С. 43-43;URL: https://physics-mathematics.ru/ru/article/view?id=55 (дата обращения: 24.06.2026).
science-review.ru