A Hybrid Bi-LSTM-CRF Model for Sequence Labeling Applied to the Sourcing Domain

Autor:	Hasnaa Daoud, Molka Tounsi Dhouib, Jerôme Rancati, Catherine Faron, Andrea Tettamanzi
Přispěvatelé:	Silex Cognitive Sourcing [Gentilly] (Silex.ai), Web-Instrumented Man-Machine Interactions, Communities and Semantics (WIMMICS), Inria Sophia Antipolis - Méditerranée (CRISAM), Institut National de Recherche en Informatique et en Automatique (Inria)-Institut National de Recherche en Informatique et en Automatique (Inria)-Scalable and Pervasive softwARe and Knowledge Systems (Laboratoire I3S - SPARKS), Laboratoire d'Informatique, Signaux, et Systèmes de Sophia Antipolis (I3S), Université Nice Sophia Antipolis (1965 - 2019) (UNS), COMUE Université Côte d'Azur (2015-2019) (COMUE UCA)-COMUE Université Côte d'Azur (2015-2019) (COMUE UCA)-Centre National de la Recherche Scientifique (CNRS)-Université Côte d'Azur (UCA)-Université Nice Sophia Antipolis (1965 - 2019) (UNS), COMUE Université Côte d'Azur (2015-2019) (COMUE UCA)-COMUE Université Côte d'Azur (2015-2019) (COMUE UCA)-Centre National de la Recherche Scientifique (CNRS)-Université Côte d'Azur (UCA)-Laboratoire d'Informatique, Signaux, et Systèmes de Sophia Antipolis (I3S), COMUE Université Côte d'Azur (2015-2019) (COMUE UCA)-COMUE Université Côte d'Azur (2015-2019) (COMUE UCA)-Centre National de la Recherche Scientifique (CNRS)-Université Côte d'Azur (UCA), Université Nice Sophia Antipolis (... - 2019) (UNS), COMUE Université Côte d'Azur (2015-2019) (COMUE UCA)-COMUE Université Côte d'Azur (2015-2019) (COMUE UCA)-Centre National de la Recherche Scientifique (CNRS)-Université Côte d'Azur (UCA)-Université Nice Sophia Antipolis (... - 2019) (UNS)
Předmět:	Etiquetage de Séquences Se-quence Labeling [INFO.INFO-IR]Computer Science [cs]/Information Retrieval [cs.IR] Réseaux de neurones artificiels Extraction d'Information Information Extraction Traitement du Langage Naturel Artificial Neural Networks Natural Language Processing [INFO.INFO-AI]Computer Science [cs]/Artificial Intelligence [cs.AI]
Zdroj:	HAL PFIA-APIA 2020-5ème Conférence Nationale sur les Applications Pratiques de l’Intelligence Artificielle PFIA-APIA 2020-5ème Conférence Nationale sur les Applications Pratiques de l’Intelligence Artificielle, Jun 2020, Angers, France
Popis:	National audience; In a number of areas, companies are often faced with the task of dealing with large amounts of textual customers' requests. Automating information extraction like key phrases from customers' requests can help to accelerate the processing process. Silex France is currently facing this challenge in the context of processing sourcing requests.In this article, we share our sequence labeling results based on a hybrid method Bi-LSTM-CRF, in an industrial context. This work was integrated in the B2B Silex platform for service providers recommendation. Experiments with the B2B Silex platform data show that, with a good choice of features to extract and optimal choice of hyper-parameters, the combination of the Bi-LSTM and CRF helps to achieve good results even in a context of small data. Indeed, the textual content processed is in the form of complete sentences generated by users, and thus is subject to typing errors. To handle this type of data we combine several types of extracted features describing the textual content such as: (i) semantics, (ii) syntax, (iii) word characters, (iv) position of words.; Dans un certain nombre de domaines, les entreprises sont souvent confrontées à la tâche de traiter au quotidien des quantités importantes de demandes textuelles. L'extraction automatique des informations clés à partir des demandes clients, peut aider à accélérer le processus de traitement. Silex France est aujourd'hui confrontée à ces enjeux dans le cadre du traitement des demandes de sourcings. Dans cet article, nous partageons nos résultats d'étique-tage de séquences en nous basant sur une méthode hybride BiLSTM-CRF, dans un contexte industriel. Le travail est in-tégré dans la plate-forme B2B Silex pour la recommanda-tion des prestataires de services. Les expériences faites sur les données de la plateforme B2B Silex montrent qu'avec un bon choix de features à extraire et des hyperparamètres, la combinaison du modèle Bi-LSTM-CRF permet de réus-sir l'extraction d'infomation à partir des demandes tex-tuelles, même dans un contexte de petites données (small data). En effet, le contenu textuel traité est sous forme de phrases complètes générées par des utilisateurs, et est ainsi exposé à des erreurs de frappe. Pour gérer ce type de don-nées, nous combinons plusieurs types de features extraites décrivant le contenu textuel tels que : (i) la sémantique, (ii) la syntaxe, (iii) les caractères des mots, (iv) la position des mots.
Databáze:	OpenAIRE
Externí odkaz:	https://explore.openaire.eu/search/publication?articleId=dedup_wf_001::56b0669345b99ee39007cfd45a53bf13 https://hal.inria.fr/hal-02932095 Zobrazit plný text záznamu