Popis: |
Данная статья посвящена применению алгоритма TF-IDF, предназначенного для расчета важности слова в определенном документе, для поиска ключевых слов в новостях на сайте ntagil.org. Работа посвящена решению выявленной проблемы, а именно: отсутствию ключевых слов в тексте новостей на сайте города Нижний Тагил. Наличие данной проблемы усложняет поиск и чтение новостей на сайте, т. к. невозможно определить главную мысль статьи, не прочитав ее полностью. Для выполнения проекта был подробно изучен принцип работы представленного алгоритма, а также проведены тестовые исследования отдельно взятых статей на поиск ключевых слов. В результате работы алгоритма для каждой статьи был получен список ключевых слов, отражающих главную мысль каждой отдельно взятой новостной статьи, а также метрика tf.idf, отражающая инверсию частоты, с которой некоторое слово встречается в документе рассматриваемых новостей. Автоматический поиск ключевых слов в новостях значительно сократит время поиска данных слов, позволит гораздо быстрее определить тему и выделить главные мысли в каждой отдельной новости и обеспечит корректное индексирование новостей в поисковых системах. |