Combinaison de mesures lexicales et sémantiques pour l'extraction de données expérimentales dans des articles scientifiques
Autor: | Lentschat, Martin, Buche, Patrice, Dibie-Barthélemy, Juliette, Roche, Mathieu |
---|---|
Přispěvatelé: | Dibie, Juliette |
Jazyk: | francouzština |
Rok vydání: | 2021 |
Předmět: |
U10 - Informatique
mathématiques et statistiques Analyse de données [INFO] Computer Science [cs] Fouille de textes Extraction d'information fouille de données Perméabilité des emballages C30 - Documentation et information Q80 - Conditionnement Conditionnement des aliments ComputingMilieux_MISCELLANEOUS Traitement des données |
Zdroj: | EGC 2021 Revue des Nouvelles Technologies de l'Information |
Popis: | Cet article présente une méthode pour représenter et mesurer la pertinence de données expérimentales extraites d’articles scientifiques. Dans le domaine étudié, les emballages alimentaires, le nombre de documents est réduit et ceux-ci contiennent un vocabulaire spécifique. Nous utilisons une Ressource Termino-ontologique (RTO) pour guider l’extraction, les approches par apprentissage n’étant pas adaptées à la taille du corpus. La RTO définit les entités d’intérêt et les décrits à travers un vocabulaire. Les informations recherchées sont liées aux relations de perméabilité et sont de deux types : symboliques (i.e. une expression lexicale) et quantitatives (i.e. une valeur numérique et son unité de mesure).Les documents contiennent un grand nombre de faux-positifs dû à la présence d’informations n’étant pas liées à la perméabilité des emballages (par exemple, un nom d’emballage cité à titre de comparaison ou une température autre que le paramètre de contrôle de la mesure de perméabilité). Dans ce contexte, nous proposons ici une méthode complète et originale qui intègre une représentation multi-descripteurs des entités extraites permettant de calculer et combiner des scores de pertinence. |
Databáze: | OpenAIRE |
Externí odkaz: |