Combinaison de mesures lexicales et sémantiques pour l'extraction de données expérimentales dans des articles scientifiques

Autor: Lentschat, Martin, Buche, Patrice, Dibie-Barthélemy, Juliette, Roche, Mathieu
Přispěvatelé: Dibie, Juliette
Jazyk: francouzština
Rok vydání: 2021
Předmět:
Zdroj: EGC 2021
Revue des Nouvelles Technologies de l'Information
Popis: Cet article présente une méthode pour représenter et mesurer la pertinence de données expérimentales extraites d’articles scientifiques. Dans le domaine étudié, les emballages alimentaires, le nombre de documents est réduit et ceux-ci contiennent un vocabulaire spécifique. Nous utilisons une Ressource Termino-ontologique (RTO) pour guider l’extraction, les approches par apprentissage n’étant pas adaptées à la taille du corpus. La RTO définit les entités d’intérêt et les décrits à travers un vocabulaire. Les informations recherchées sont liées aux relations de perméabilité et sont de deux types : symboliques (i.e. une expression lexicale) et quantitatives (i.e. une valeur numérique et son unité de mesure).Les documents contiennent un grand nombre de faux-positifs dû à la présence d’informations n’étant pas liées à la perméabilité des emballages (par exemple, un nom d’emballage cité à titre de comparaison ou une température autre que le paramètre de contrôle de la mesure de perméabilité). Dans ce contexte, nous proposons ici une méthode complète et originale qui intègre une représentation multi-descripteurs des entités extraites permettant de calculer et combiner des scores de pertinence.
Databáze: OpenAIRE