Vers un concordanceur-lemmatisateur en ligne du grec ancien
Autor: | Bastien Kindt, Laurent Kevers |
---|---|
Jazyk: | francouzština |
Rok vydání: | 2004 |
Předmět: | |
Zdroj: | Périodiques Scientifiques en Édition Électronique. |
Popis: | English summary: Towards an on-line Software of Concordancing-lemmatising for Ancient Greek. One of the aims of the Research project in Greek lexicology (Université catholique de Louvain, Louvain-la-Neuve, Belgium) is to create an electronic dictionary of ancient Greek useful for automated textual analysis softwares. The lexical data (174.758 word-types ; 33.874 lemmas) of this lexicon come from the lemmatisation of patristical and historical sources of the Byzantine period. The corpus and lexical material have been adapted by the CENTAL (Louvain-la-Neuve) to Unitex, a lexical and syntactical analysis software created in the d'Informatique de l'Institut Gaspard Monge (Paris). An original interface allows on-line explorations of an experimental corpus (Basil of Caesarea's Letters ; 134.511 word-tokens), entirely lemmatised already. Other corpora are now planned. The queries take lemmas, word-types or syntactical figures into account. Answers appear on the screen as concordances in a polytonic Unicode Greek font. An other lexical tool allows the user to select lemmas with common morphemes ; a listing of all lemmas coming from the same word, compounded or derived, may be visualised as a morphological tree. Les travaux du Projet de recherche en lexicologie grecque (Université catholique de Louvain, Louvain-la-Neuve, Belgique) visent à élaborer un dictionnaire général du grec ancien applicable aux logiciels de traitement automatique du langage naturel (TAL). Constitué de données lexicales produites par la lemmatisation systématique de sources patristiques et historiographiques d'époque byzantine, ce dictionnaire compte actuellement 174.758 «formes de mots » classées sous 33.874 lemmes accompagnés d'une indication de leur catégorie morphosyntaxique. Les sources littéraires analysées et les données générées ont été adaptées par le CENTAL (Louvain-la-Neuve) à Unitex, un logiciel d'exploration lexicale et syntaxique des textes développé au Laboratoire d'Informatique de l'Institut Gaspard Monge (Paris). Une interface originale permet d'interroger en ligne un corpus expérimental, entièrement lemmatisé et désambiguïsé, limité pour l'instant aux lettres de Basile de Césarée (134.511 occurrences) mais susceptible de s'accroître dans un futur proche. Les requêtes peuvent être formulées sur base des lemmes et des formes ou à partir de motifs syntaxiques. Les réponses s'affichent à l'écran en grec polytonique Unicode sous forme de concordances. Un étiquetage des morphèmes constitutifs des lemmes permet de plus d'appeler les lemmes formellement apparentés à un même mot. Le résultat apparaît sous la forme d'une « arborescence dérivationnelle » rassemblant les dérivés et les composés du terme étudié. Kevers Laurent, Kindt Bastien. Vers un concordanceur-lemmatisateur en ligne du grec ancien. In: L'antiquité classique, Tome 73, 2004. pp. 203-213. |
Databáze: | OpenAIRE |
Externí odkaz: |