Verbal Multiword Expression Identification: Do We Need a Sledgehammer to Crack a Nut?

Autor: Jean-Yves Antoine, Caroline Pasquer, Agata Savary, Carlos Ramisch
Přispěvatelé: Université de Tours (UT), Bases de données et traitement des langues naturelles (BDTLN), Laboratoire d'Informatique Fondamentale et Appliquée de Tours (LIFAT), Université de Tours (UT)-Institut National des Sciences Appliquées - Centre Val de Loire (INSA CVL), Institut National des Sciences Appliquées (INSA)-Institut National des Sciences Appliquées (INSA)-Centre National de la Recherche Scientifique (CNRS)-Université de Tours (UT)-Institut National des Sciences Appliquées - Centre Val de Loire (INSA CVL), Institut National des Sciences Appliquées (INSA)-Institut National des Sciences Appliquées (INSA)-Centre National de la Recherche Scientifique (CNRS), Traitement Automatique du Langage Ecrit et Parlé (TALEP), Laboratoire d'Informatique et Systèmes (LIS), Aix Marseille Université (AMU)-Université de Toulon (UTLN)-Centre National de la Recherche Scientifique (CNRS)-Aix Marseille Université (AMU)-Université de Toulon (UTLN)-Centre National de la Recherche Scientifique (CNRS), ANR-14-CERA-0001,PARSEME-FR,Analyse syntaxique et expressions polylexicales pour le fran?ais(2014), Savary, Agata, Analyse syntaxique et expressions polylexicales pour le fran?ais - - PARSEME-FR2014 - ANR-14-CERA-0001 - Appel à projets générique - VALID, Université de Tours, Université de Tours-Institut National des Sciences Appliquées - Centre Val de Loire (INSA CVL), Institut National des Sciences Appliquées (INSA)-Institut National des Sciences Appliquées (INSA)-Centre National de la Recherche Scientifique (CNRS)-Université de Tours-Institut National des Sciences Appliquées - Centre Val de Loire (INSA CVL), Université de Toulon (UTLN)-Centre National de la Recherche Scientifique (CNRS)-Aix Marseille Université (AMU)-Université de Toulon (UTLN)-Centre National de la Recherche Scientifique (CNRS)-Aix Marseille Université (AMU)
Jazyk: angličtina
Rok vydání: 2020
Předmět:
Zdroj: The 28th International Conference on Computational Linguistics (COLING-20)
The 28th International Conference on Computational Linguistics (COLING-20), Dec 2020, Barcelona, Spain
COLING
Popis: International audience; Automatic identification of multiword expressions (MWEs), like to cut corners 'to do an incomplete job ', is a prerequisite for semantically-oriented downstream applications. This task is challenging because MWEs, especially verbal ones (VMWEs), exhibit surface variability. This paper deals with a subproblem of VMWE identification: the identification of occurrences of previously seen VMWEs. A simple language-independent system based on a combination of filters competes with the best systems from a recent shared task: it obtains the best averaged F-score over 11 languages (0.6653) and even the best score for both seen and unseen VMWEs due to the high proportion of seen VMWEs in texts. This highlights the fact that focusing on the identification of seen VMWEs could be a strategy to improve VMWE identification in general.
Databáze: OpenAIRE