Improving term candidates selection using terminological tokens

Autor: Antoni Oliver, Mercè Vàzquez
Rok vydání: 2022
Předmět:
Computer science
mètode de filtrat TSR
tokens terminológicos
02 engineering and technology
term candidates
termes candidats
Library and Information Sciences
Security token
computer.software_genre
Language and Linguistics
Ranking (information retrieval)
Reduction (complexity)
automatic term extraction
corpus específicos de dominio
tokens terminològics
Natural language processing (Computer science)
0202 electrical engineering
electronic engineering
information engineering

Tractament del llenguatge natural (Informàtica)
unidades terminológicas
Selection (genetic algorithm)
términos candidatos
business.industry
Communication
05 social sciences
Rank (computer programming)
extractores de terminología
unitats terminològiques
terminological tokens
método de filtrado TSR
extractors de terminologia
Term (time)
Identification (information)
extracció automàtica de termes
terminological units
TBXTools
Tratamiento del lenguaje natural (Informática)
020201 artificial intelligence & image processing
Artificial intelligence
extracción automática de términos
0509 other social sciences
050904 information & library sciences
business
Precision and recall
computer
domain-specific corpora
corpus específics de domini
Natural language processing
TSR filtering method
terminology extraction
Zdroj: O2, repositorio institucional de la UOC
Universitat Oberta de Catalunya (UOC)
ISSN: 1569-9994
0929-9971
DOI: 10.1075/term.00016.vaz
Popis: The identification of reliable terms from domain-specific corpora using computational methods is a task that has to be validated manually by specialists, which is a highly time-consuming activity. To reduce this effort and improve term candidate selection, we implemented the Token Slot Recognition method, a filtering method based on terminological tokens which is used to rank extracted term candidates from domain-specific corpora. This paper presents the implementation of the term candidates filtering method we developed in linguistic and statistical approaches applied for automatic term extraction using several domain-specific corpora in different languages. We observed that the filtering method outperforms term candidate selection by ranking a higher number of terms at the top of the term candidate list than raw frequency, and for statistical term extraction the improvement is between 15% and 25% both in precision and recall. Our analyses further revealed a reduction in the number of term candidates to be validated manually by specialists. In conclusion, the number of term candidates extracted automatically from domain-specific corpora has been reduced significantly using the Token Slot Recognition filtering method, so term candidates can be easily and quickly validated by specialists. La identificación de términos apropiados de corpus específicos de dominio utilizando métodos computacionales es una tarea que debe ser validada manualmente por especialistas, lo cual es una actividad que consume mucho tiempo. Para reducir este esfuerzo y mejorar la selección de los términos candidatos, implementamos el método Token Slot Recognition, un método de filtrado basado en tokens terminológicos que se utiliza para clasificar candidatos de términos extraídos de corpus específicos de dominio. Este artículo presenta la implementación del término con un método de filtrado de candidatos que desarrollamos en los enfoques lingüísticos y estadísticos aplicados para la extracción automática de términos utilizando varios corpus específicos de dominio en diferentes idiomas. Observamos que el método de filtrado supera la selección de candidatos a término al clasificar un mayor número de términos en la lista de candidatos a término que la frecuencia sin procesar, y para la extracción de términos estadísticos la mejora es entre 15% y 25% tanto en precisión como en recuperación. Nuestros análisis revelaron además una reducción en el número de candidatos a término para ser validados manualmente por especialistas. En conclusión, el número de candidatos a término extraídos automáticamente de corpus específicos del dominio se ha reducido significativamente utilizando el método de filtrado Token Slot Recognition, por lo que los candidatos a término pueden ser validados fácil y rápidamente por especialistas. La identificació de termes apropiats de corpus específics de domini utilitzant mètodes computacionals és una tasca que ha de ser validada manualment per especialistes, la qual cosa és una activitat que consumeix molt temps. Per reduir aquest esforç i millorar la selecció dels termes candidats, implementem el mètode Token Slot Recognition, un mètode de filtrat basat en tokens terminològics que s'utilitza per classificar candidats de termes extrets de corpus específics de domini. Aquest article presenta la implementació del terme amb un mètode de filtrat de candidats que desenvolupem en els enfocaments lingüístics i estadístics aplicats per a l'extracció automàtica de termes utilitzant diversos corpus específics de domini en diferents idiomes. Observem que el mètode de filtrat supera la selecció de candidats a terme en classificar un major nombre de termes en la llista de candidats a terme que la freqüència sense processar, i per a l'extracció de termes estadístics la millora és entre 15% i 25% tant en precisió com en recuperació. Les nostres anàlisis van revelar a més una reducció en el nombre de candidats a terme per ser validats manualment per especialistes. En conclusió, el nombre de candidats a terme extrets automàticament de corpus específics del domini s'ha reduït significativament utilitzant el mètode de filtrat Token Slot Recognition, per la qual cosa els candidats a terme poden ser validats fàcil i ràpidament per especialistes.
Databáze: OpenAIRE