Towards information system development for data extraction from web

Autor:	Yulia Mukolaivna Gontar, Kateryna Victorivna Tkach, Bohdan Oleksandrovych Yena, Artem Victorovych Vasylenko
Jazyk:	English<br />Russian<br />Ukrainian
Rok vydání:	2018
Předmět:	information web search data extraction data source data mining language standards informational technology Technology
Zdroj:	Вісник Національного технічного університету "ХПÌ": Системний аналіз, управління та інформаційні технології, Vol 0, Iss 22, Pp 53-59 (2018)
Druh dokumentu:	article
ISSN:	2079-0023 2410-2857
DOI:	10.20998/2079-0023.2018.22.08
Popis:	Сьогодні Інтернет містить величезну кількість джерел інформації, яка постійно використовується в нашому щоденному житті. Часто буває, що схожа за змістом інформація представлена в різній формі на різних ресурсах (наприклад, електронні бібліотеки, інтернет-магазини, новинні сайти). У даній роботі аналізується вилучення інформації з веб-джерел певного типу, яке потрібно користувачеві. Проведено аналіз проблеми вилучення даних. При розгляді основних підходів до екстракції даних були виділені сильні і слабкі сторони кожного. Сформульовано основні аспекти вилучення веб-знань. Проаналізовано підходи та інформаційні технології вирішення проблем синтаксичного аналізу на основі існуючих інформаційних систем. На основі проведеного аналізу була сформована задача розробки моделей і програмних компонентів для отримання даних з веб-ресурсів певного типу. Розроблено концептуальну модель вилучення даних з урахуванням веб-простору як зовнішнього джерела даних. Була створена специфікація вимог для програмного компонента, що дозволить продовжити роботу над проектом, щоб чітко розуміти вимоги і обмеження для реалізації. При моделюванні програмного забезпечення були розроблені наступні діаграми, такі як діаграми класів, активності, послідовності і розгортання, які потім будуть використовуватися для створення готового додатка. Для подальшої розробки програмного забезпечення була визначена платформа програмування і види тестування (навантажувальний і модульне). Отримані результати дозволяють стверджувати, що пропоноване проектне рішення, яке буде реалізовано у вигляді прототипу програмної системи, може виконувати завдання екстракції даних з різних джерел на основі одного семантичного шаблону.
Databáze:	Directory of Open Access Journals
Externí odkaz:	https://doaj.org/article/8297707ddd9d45d69a6878098c7d57fd Zobrazit plný text záznamu View record in DOAJ