ivdon3@bk.ru
В данной работе представлен обзор задачи автоматического реферирования текстов. Проведена классификация алгоритмов автоматического реферирования текстов по типу получаемого реферата и по подходу к решению задачи. Описаны некоторые существующие проблемы в области автоматического реферирования текстов и недостатки отдельных классов алгоритмов. Определены понятия качества и информационной полноты реферата. Рассмотрены наиболее популярные подходы к оценке информационной полноты реферата и их классификация в соответствии с используемой методологией. Рассмотрены метрики семейства ROUGE применительно к задаче автоматического реферирования текстов. Отдельное внимание уделено оценке информационной полноты реферата с использованием таких метрик информационной близости, как расстояние Кульбака-Лейблера, расстояние Дженсена-Шеннона и косинусное расстояние (сходство).
Ключевые слова: автоматическое реферирование, реферат, информационная полнота, ROUGE, векторизация, TF IDF, статическая модель векторизации, расстояние Кульбака-Лейблера, расстояние Дженсена-Шеннона, косинусное расстояние