Sintaksinio sudėtingumo analizė anotuotame lietuvių kalbos tekstyne priklausomybių nuotolio metodu

Autor: Vytautas Ožeraitis
Rok vydání: 2021
Předmět:
Zdroj: Kalbų studijos [Studies About Languages]. 2021, Nr. 39, p. 93-110.
ISSN: 2029-7203
1648-2824
Popis: Sintaksinis sudėtingumas yra visoms kalboms būdinga ypatybė, labai bendrai apibūdinama kaip sakinio (ar teksto) ir jo elementų įmantrumą, detalumą, sąrangą bei jungimosi modelius sudėtingumo aspektu pateikiantis įvertis. Lietuvių kalboje sintaksinis sudėtingumas nėra plačiai analizuotas. Sintaksinio sudėtingumo tyrimus apsunkina nenusistovėjusi termino apibrėžtis ir skirtingų jo apskaičiavimo metodų gausa. Šiame straipsnyje pristatomas sintaksinio sudėtingumo tyrimas sintaksiškai anotuotame lietuvių kalbos tekstyne ALKSNIS, naudojant sintaksinės priklausomybės nuotolio metodą, paremtą Dependency Locality teorija. Straipsnyje aprašoma sintaksinio sudėtingumo samprata, pristatomi sintaksinio sudėtingumo tyrimų principai, jų aktualumas ir pritaikomumas, pristatomi ir aptariami sintaksinio sudėtingumo rezultatai tekstyne, analizuojami pasirinkto metodo privalumai ir trūkumai. Šiuo tyrimu siekiama papildyti lietuvių kalbos sintaksinio sudėtingumo analizės lauką. Sintaksinio sudėtingumo analizei naudojami du rodmenys – vidutinis priklausomybės nuotolis ir modifikuotas vidutinis priklausomybės nuotolis, sintaksiškai anotuotame tekstyne apskaičiuojant sintaksinių sakinio priklausomybės ryšių distanciją. Tyrime analizuojami visi tekstyno sakiniai, nustatomas atskirų tekstų ir tekstyno dalių sintaksinis sudėtingumas. Detaliau analizuojant paskirus sakinius, išryškėja tiek šių metodų trūkumai sintaksinio sudėtingumo analizei, tiek jų priklausomybė nuo tikslios ir nuoseklios anotavimo schemos. Analizuojant duomenis išryškėja poreikis į sintaksinio sudėtingumo sampratą bei formulę įtraukti sakinių tarpusavio sąsajų svertus. Nustatyta, kad modifikuoto vidutinio priklausomybės nuotolio formulėje įtraukta sakinio viršūnės pozicija galimai iškreipia rezultatus, todėl šią formulę reikėtų toliau tikslinti. Tyrimo metu nustatytos sakinių ir tekstų sudėtingumo ribos laikomos tik orientacinėmis, tiksliau joms apibrėžti siūlomi papildomi kokybiniai tyrimai ir eksperimentai. Syntactic complexity is a feature common to all languages and is generally described as an assessment of the sophistication, elaborateness, length, and patterns of a sentence (or text) and its elements. In Lithuanian, syntactic complexity is not widely analyzed. Studies of syntactic complexity are problematic due to the unstable definition of the term and the abundance of different methods for calculating it. This article presents the study of syntactic complexity in the syntactically annotated Lithuanian corpus ALKSNIS, using the syntactic dependency distance method, which is based on the Dependency Locality theory. The article introduces the concept of syntactic complexity, presents the principles of its research, their relevance, and discusses the results of syntactic complexity in the corpus, advantages, and disadvantages of the chosen method. This study aims to supplement the field of the syntactic complexity analysis of the Lithuanian language. For the analysis of syntactic complexity, two measures are used: the mean dependency distance and the modified mean dependency distance. The study analyzes corpus data, determines the syntactic complexity of individual sentences and texts. A detailed analysis reveals both the shortcomings of the methods used and their dependence on an accurate and consistent annotation scheme. Analyzing the data, the need to include linkages between sentences into syntactic complexity formulas becomes apparent. The position of the sentence vertex included in the modified mean dependence distance formula has been found to potentially distort the results, hence the study calls for further refinement of the formula. The boundaries of the complexity of sentences and texts identified in the present study are indicative, hence further qualitative analysis and experiments are needed to define them with greater precision.
Databáze: OpenAIRE