Автоматическая суммаризация веб-форумов как источников профессионально значимой информации
Jazyk: | ruština |
---|---|
Rok vydání: | 2016 |
Předmět: | |
Zdroj: | Научно-технический вестник информационных технологий, механики и оптики. |
ISSN: | 2226-1494 |
Popis: | Предмет исследования. Конкурентным преимуществом современного специалиста является максимально широкий охват источников информации, полезных с точки зрения получения и освоения актуальной профессионально значимой информации. Среди таких источников значительное место занимают профессиональные веб-форумы. В статье рассматривается задача автоматической суммаризации текста форума, т.е. выделения тех его фрагментов, которые содержат профессионально значимую информацию. Метод. Исследование строится на базе статистического анализа текстов форумов посредством машинного обучения. Для исследований отобраны шесть веб-форумов, тематикой которых являются аспекты технологий различных предметных областей. Разметка форумов проводилась экспертным путем. С использованием различных методов машинного обучения построены модели, отражающие функциональную связь между оцениваемыми характеристиками качества извлечения профессионально значимой информации и признаками постов. Для оценки качества моделей использованы кумулятивная метрика NDCG и ее дисперсия. Основные результаты. Показано, что в оценке эффективности извлечения профессионально значимой информации важную роль играет контекст запроса. Отобраны характерные для извлечения профессионально значимой информации контексты запросов, отражающие различные трактовки информационной потребности пользователей, обозначенные терминами релевантность и информативность. Построены шкалы для их оценок, соответствующие общемировым подходам. Экспериментально подтверждено, что результаты суммаризации форумов, выполняемой экспертами вручную, существенно зависят от контекста запроса. Показано, что в общей оценке эффективности извлечения профессионально значимой информации релевантность достаточно хорошо описывается линейной комбинацией признаков, а для оценки информативности уже требуется их нелинейная комбинация. При этом при оценке релевантности ведущую роль играют признаки, связанные с ключевыми словами, а при оценке информативности на первый план выступают характеристики текста поста в целом, а также признаки, связанные со структурой треда как текста и как социального графа. Показано, что эффективность извлечения информативных постов слабо зависит от способа задания ключевых слов, в то время как для извлечения релевантных постов такая зависимость существенна. Выявлен способ выделения ключевых слов, наиболее эффективный для реальных приложений. Показано, что при выделении релевантных постов линейные методы выигрывают в эффективности по сравнению с нелинейными, а модель LDA занимает промежуточное положение; в то же время при выделении информативных постов линейные и нелинейные методы идентичны по эффективности, а модель LDA значительно уступает им обоим. Предложена содержательная модель, позволяющая объяснить полученные результаты. Практическая значимость. Полученные результаты могут служить основой для построения и новых и адекватного применения существующих алгоритмов суммаризации веб-форумов, что позволит существенно сократить временные и ресурсные затраты пользователя на получение и изучение максимально свежей профессионально значимой информации. Subject of Research. The competitive advantage of a modern specialist is the widest possible coverage of information sources useful from the point of view of obtaining and acquisition of relevant professionally significant information. Among these sources professional web forums occupy a significant place. The paper considers the problem of automatic forum text summarization, i.e. identification of those fragments that contain professionally relevant information. Method. The research is based on statistical analysis of texts of forums by means of machine learning. Six web forums were selected for research considering aspects of technologies of various subject domains as their subject-matter. The marking of forums was carried out by an expert way. Using various methods of machine learning the models were designed reflecting functional communication between the estimated characteristics of PSI extraction quality and signs of posts. The cumulative NDCG metrics and its dispersion were used for an assessment of quality of models. Main Results. We have shown that an important role in an assessment of PSI extraction efficiency is played by request context. The contexts of requests have been selected, characteristic of PSI extraction, reflecting various interpretations of information needs of users, designated by terms relevance and informational content. The scales for their estimates have been designed corresponding to worldwide approaches. We have experimentally confirmed that results of the summarization of forums carried out by experts manually significantly depend on request context. We have shown that in the general assessment of PSI extraction efficiency relevance is rather well described by a linear combination of features, and the informational content assessment already requires their nonlinear combination. At the same time at a relevance assessment the leading role is played by the features connected with keywords, and at an informational content assessment characteristics of the post text in general come to the fore, and also the features connected with structure of a thread as the text and the social graph. We have shown that efficiency of extraction of informative posts poorly depends on a way of keywords assignment while such dependence is essential to extraction of relevant posts. The way of keywords extraction, the most effective for real appendices has been revealed. We have shown that at extraction of relevant posts linear methods are better in efficiency in comparison with nonlinear, and the LDA model is intermediate; at the same time at extraction of informative posts linear and nonlinear methods are identical by efficiency, and the LDA model considerably concedes to both of them. We have proposed substantial model explaining the received results. Practical Relevance. The obtained results can provide background for creation of new and adequate application of the existing algorithms of web forums summarization that will allow reducing significantly user’s time and resource expenditure by receiving and studying the last minute professionally significant information. |
Databáze: | OpenAIRE |
Externí odkaz: |