Verbal Multiword Expression Identification: Do We Need a Sledgehammer to Crack a Nut?
Autor: | Jean-Yves Antoine, Caroline Pasquer, Agata Savary, Carlos Ramisch |
---|---|
Přispěvatelé: | Université de Tours (UT), Bases de données et traitement des langues naturelles (BDTLN), Laboratoire d'Informatique Fondamentale et Appliquée de Tours (LIFAT), Université de Tours (UT)-Institut National des Sciences Appliquées - Centre Val de Loire (INSA CVL), Institut National des Sciences Appliquées (INSA)-Institut National des Sciences Appliquées (INSA)-Centre National de la Recherche Scientifique (CNRS)-Université de Tours (UT)-Institut National des Sciences Appliquées - Centre Val de Loire (INSA CVL), Institut National des Sciences Appliquées (INSA)-Institut National des Sciences Appliquées (INSA)-Centre National de la Recherche Scientifique (CNRS), Traitement Automatique du Langage Ecrit et Parlé (TALEP), Laboratoire d'Informatique et Systèmes (LIS), Aix Marseille Université (AMU)-Université de Toulon (UTLN)-Centre National de la Recherche Scientifique (CNRS)-Aix Marseille Université (AMU)-Université de Toulon (UTLN)-Centre National de la Recherche Scientifique (CNRS), ANR-14-CERA-0001,PARSEME-FR,Analyse syntaxique et expressions polylexicales pour le fran?ais(2014), Savary, Agata, Analyse syntaxique et expressions polylexicales pour le fran?ais - - PARSEME-FR2014 - ANR-14-CERA-0001 - Appel à projets générique - VALID, Université de Tours, Université de Tours-Institut National des Sciences Appliquées - Centre Val de Loire (INSA CVL), Institut National des Sciences Appliquées (INSA)-Institut National des Sciences Appliquées (INSA)-Centre National de la Recherche Scientifique (CNRS)-Université de Tours-Institut National des Sciences Appliquées - Centre Val de Loire (INSA CVL), Université de Toulon (UTLN)-Centre National de la Recherche Scientifique (CNRS)-Aix Marseille Université (AMU)-Université de Toulon (UTLN)-Centre National de la Recherche Scientifique (CNRS)-Aix Marseille Université (AMU) |
Jazyk: | angličtina |
Rok vydání: | 2020 |
Předmět: |
050101 languages & linguistics
Computer science business.industry 05 social sciences 02 engineering and technology computer.software_genre [INFO.INFO-CL]Computer Science [cs]/Computation and Language [cs.CL] Multiword expression Task (project management) Identification (information) [INFO.INFO-CL] Computer Science [cs]/Computation and Language [cs.CL] 0202 electrical engineering electronic engineering information engineering 020201 artificial intelligence & image processing 0501 psychology and cognitive sciences Artificial intelligence business computer Natural language processing |
Zdroj: | The 28th International Conference on Computational Linguistics (COLING-20) The 28th International Conference on Computational Linguistics (COLING-20), Dec 2020, Barcelona, Spain COLING |
Popis: | International audience; Automatic identification of multiword expressions (MWEs), like to cut corners 'to do an incomplete job ', is a prerequisite for semantically-oriented downstream applications. This task is challenging because MWEs, especially verbal ones (VMWEs), exhibit surface variability. This paper deals with a subproblem of VMWE identification: the identification of occurrences of previously seen VMWEs. A simple language-independent system based on a combination of filters competes with the best systems from a recent shared task: it obtains the best averaged F-score over 11 languages (0.6653) and even the best score for both seen and unseen VMWEs due to the high proportion of seen VMWEs in texts. This highlights the fact that focusing on the identification of seen VMWEs could be a strategy to improve VMWE identification in general. |
Databáze: | OpenAIRE |
Externí odkaz: |