Vers une détection en temps réel de documents Web centrés sur une entité donnée

Autor: Ludovic Bonnefoy, Vincent Bouvier, Romain Deveaud, Patrice Bellot
Rok vydání: 2013
Zdroj: HAL
DOI: 10.24348/coria.2013.coria2013_55
Popis: RÉSUMÉ. La tâche de désambiguïsation des entités nommées consiste à lier une mention ambiguë d'une entité dans un document à l'entité correspondante dans une base de connaissances. Dans ce travail, nous nous plaçons dans un cadre applicatif 'inverse' et nous ajoutons une contrainte temporelle : nous souhaitons surveiller un flux de nouveaux documents Web et déterminer quels sont ceux mentionnant une entité donnée tout en mesurant l'importance de l'information conte- nue. Une telle approche peut servir à recommander des documents à des contributeurs si une information mérite d'être ajoutée dans la base de connaissances cible. Notre approche repose sur l'utilisation de deux classifieurs prenant en compte, pour déterminer l'intérêt d'un docu- ment du flux, des indices comme la fréquence de mentions de l'entité dans le temps ou dans le document, sa position ou encore la présence d'entités liées connues. Notre approche et l'impact des paramètres utilisés ont été évalués via une participation à la tâche 'Knowledge Base Acce- leration' de TREC 2012 et a positionné notre équipe au rang 3 sur 11 (Bonnefoy et al., 2012).
Databáze: OpenAIRE