Anglų-lietuvių kalbų kibernetinio saugumo terminų bazės kūrimo metodikos modelis

Autor: Rackevičienė, Sigita, Utka, Andrius, Mockienė, Liudmila, Rokas, Aivaras
Jazyk: angličtina
Rok vydání: 2021
Předmět:
Zdroj: Kalbų studijos [Studies About Languages]. 2021, Nr. 39, p. 85-92.
ISSN: 1648-2824
2029-7203
Popis: Straipsnio tikslas – pristatyti anglų-lietuvių kalbų kibernetinio saugumo terminų bazės kūrimo metodikos modelį, kuris galėtų būti taikomas kitų kalbų porų bei kitų specializuotų sričių terminams tvarkyti. Autorių teigimu, pateiktoji metodika gali užtikrinti aukštos kokybės dvikalbių terminų bazių kūrimą net ir turint ribotus išteklius. Straipsnyje pristatomi terminologinių duomenų ir metaduomenų rinkimo, tyrimo ir tvarkybos principai: kalbama apie tekstynų sudarymo metodus ir problemas, terminų anotavimą, automatinį dvikalbių terminų atpažinimą ir sulygiavimą, informacinių kontekstų atpažinimą ir lingvistinių atvirų susietųjų duomenų (angl. LLOD) technologijas. Straipsnyje taip pat pateikiami autorių argumentai dėl aprašytų metodų efektyvumo. Teorinė analizė ir bandomieji tyrimai leidžia teigti, kad: 1) palyginamųjų tekstynų sudarymas ir naudojimas kartu su lygiagrečiaisiais leidžia išplėsti duomenų šaltinių, skirtų terminų atpažinimui, kiekį ir įvairovę; ši metodika yra ypač svarbi kalboms, turinčioms mažiau išteklių, nes joms dažnai trūksta lygiagrečiųjų duomenų (verstinių tekstų); 2) gilaus mokymosi sistemos, apmokytos naudojant rankiniu būdu anotuotus duomenis (aukso standarto tekstynus), leidžia efektyviai automatizuoti terminologinių duomenų bei metaduomenų rinkimą ir reguliariai atnaujinti terminų bazes su minimaliomis rankų darbo sąnaudomis; 3) lingvistinių atvirų susietųjų duomenų technologijos įgalina terminologinius duomenis integruoti į globalią kalbinių duomenų ekosistemą, kurioje jie būtų susieti su kitais terminologiniais duomenimis. Ši duomenų ekosistema žymiai išplečia jų paieškos ir panaudojimo galimybes. The aim of the paper is to present a methodological framework for the development of an English-Lithuanian bilingual termbase in the cybersecurity domain, which can be applied as a model for other language pairs and other specialised domains. It is argued that the presented methodological approach can ensure creation of high-quality bilingual termbases even with limited available resources. The paper touches upon the methods and problems of dataset (corpora) compilation, terminology annotation, automatic bilingual term extraction (BiTE) and alignment, knowledge-rich context extraction, and linguistic linked open data (LLOD) technologies. The paper presents theoretical considerations as well as the arguments on the effectiveness of the described methods. The theoretical analysis and a pilot study allow arguing that: 1) a combination of parallel and comparable corpora enable to considerably expand the amount and variety of data sources that can be used for terminology extraction; this methodology is especially important for less-resourced languages which often lack parallel data; 2) deep learning systems trained by using manually annotated data (gold standard corpora) allow effective automatization of extraction of terminological data and metadata, which enables to regularly update termbases with minimised manual input; 3) LLOD technologies enable to integrate the terminological data into the global linguistic data ecosystem and make it reusable, searchable and discoverable across the Web.
Databáze: OpenAIRE