Web crawling dla celów lingwistycznych. Wybrane aspekty gromadzenia i analizy danych tekstowych na przykładzie rosyjskojęzycznych newsów internetowych

Jazyk: polština
Rok vydání: 2021
Předmět:
Zdroj: Prace Językoznawcze. 23(3):87-104
ISSN: 1509-5304
DOI: 10.31648/pj.6838
Popis: Autor niniejszego artykułu zgromadził ok. 2,7 mln rosyjskojęzycznych newsów internetowych. Zasadnicze cele tego tekstu stanowią: omówienie pojęcia web crawlingu w odniesieniu do pozyskiwania internetowych danych tekstowych, omówienie kwestii strukturyzacji takich danych w nieanotowanych korpusach tekstowych, a także przedstawienie wybranych aspektów analizy danych strukturyzowanych w ten sposób. Autor rozpatruje newsy internetowe jako połączenie tekstu zasadniczego oraz identyfikujących i charakteryzujących go metadanych (wyróżnionych podczas automatycznej ich ekscerpcji ze stron internetowych). Rozdział newsów na tekst zasadniczy i metadane stwarza możliwość przeprowadzenia ich analizy z dwóch perspektyw – tekstowej oraz metainformacyjnej (dodatkowo, np. w odniesieniu do badań chronologizacyjnych, z perspektywy uwzględniającej oba te poziomy). Zarys możliwych badań lingwistycznych zgromadzonego materiału uzupełnia autor ewaluacją wybranych wielowyrazowych całostek, wydobytych z tych tekstów z wykorzystaniem delimitacyjnej funkcji cudzysłowu.
The author of the article collected nearly 2.7 million excerpts of Russian-language Internet news. The main objectives of the article include: discussing the concept of web crawling in relation to the acquisition of online text data, addressing issues related to structuring such data in unannotated text corpora, as well as presenting selected aspects of analyzing data structured this way. The author considers Internet news to be a combination of the main text and metadata that identifies and characterizes it (acquired during automatic extraction from websites). The categorization of news into the main text and metadata creates an opportunity to analyze it from two perspectives – textual and meta-information (and an additional perspective that combines these two, for example for the purpose of chronological studies). An outline of possible linguistic research into the collected material is supplemented with evaluating selected multi-word tokens extracted from these texts based on the delimitation function of quotation marks.
Databáze: OpenAIRE