Automated classification of service reports using natural language processing techniques
Autor: | Gilyarovskaya, Elizaveta Alexeevna |
---|---|
Jazyk: | angličtina |
Rok vydání: | 2022 |
Předmět: |
Clasificación de texto supervisada
Automatización Extracción de entidades personalizadas Natural language processing Informes de ingeniería de servicios Automating Business improvement Grado en Ciencia de Datos-Grau en Ciència de Dades Aprendizaje automático Unsupervised text classification Supervised text classification Custom entities extraction Procesamiento de lenguaje natural Machine learning Mejora empresarial MATEMATICA APLICADA Clasificación de texto no supervisada Service Engineering Reports |
Popis: | [CA] Kongsberg Maritime és una empresa tecnològica que lliura sistemes de posicionament, topografia, navegació i automatització a vaixells mercants i instal·lacions a alta mar. És de vital importància tenir un sistema madur i eficaç de gestió de reports que permeti analitzar i classificar tota la informació disponible i recolzar així el procés de la presa de decisions. L’empresa es beneficiarà de la proposta desenvolupada en aquest projecte de forma directa ja que permet automatitzar el procés de revisar i extreure informació dels informes i dedicar els recursos antigament implicats en això a altres àrees del negoci ComapartdeEquipd’Innovació de Dades he desenvolupat aquest projecte amb l’objectiu d’automatitzar els processos interns de la companyia aplicant tècniques d’intel·ligència artificial, més concretament de processament del llenguatge natural, a les tasques de revisió i classificació dels informes de manteniment realitzats pels enginyers de servei. En primer lloc, s’ha desenvolupat un model d’aprenentatge semisupervisat, few-shot learning, per a la tasca de classificar el text d’un informe a les categories d’interès. Quan les prediccions d’aquest model han estat corregides per experts del domini i s’han generat suficients dades etiquetades, s’han entrenat classificadors supervisats per millorar les prediccions i arribar a un model definitiu per posar-lo en producció. També es va entrenar un model deep learning de tipus red transformers mitjançant la tècnica transfer learning. Finalment, s’ha dissenyat custom rule-based matching per al reconeixement i l’extracció d’entitats i paraules clau d’interès. Per posar el programa enproducció, s’ha desenvolupat una interfície d’usuari que mostra la sortida dels models de forma gràfica i permet als agents encarregats de supervisar-lo introduir les correccions a les prediccions del model per a ajustar-les i millorar-les posteriorment. [ES] Kongsberg Maritime es una empresa tecnológica que entrega sistemas de posicionamiento, topografía, navegación y automatización a buques mercantes e instalaciones en alta mar. Es de vital importancia para ellos tener un sistema ma- duro y eficaz de gestión de reportes que permita analizar y clasificar toda la in- formación disponible y apoyar de esta forma el proceso de la toma de decisiones. La empresa se beneficiará de la propuesta desarollada en este proyecto de forma directa ya que permite automatizar el proceso de revisar y extraer información de los informes y dedicar los recursos antiguamente implicados en eso a otras áreas del negocio. Como parte del Equipo de Innovación de Datos he desarrollado este proyecto con el objetivo de automatizar los procesos internos de la compañía aplicando técnicas de inteligencia artificial, más concretamente de procesamiento del lenguaje natural, a las tareas de revisión y clasificación de los informes de mantenimiento realizados por los ingenieros de servicio. En primer lugar, se ha desarrollado un modelo de aprendizaje semisupervisado, few-shot learning, para la tarea de clasificar el texto de un informe en las categorías de interés. Una vez que las pre- dicciones de este modelo han sido corregidas por expertos del dominio y se han generado suficientes datos etiquetados, se han entrenado clasificadores supervisados para mejorar las predicciones y llegar a un modelo definitivo para ponerlo en producción. También se entrenó un modelo deep learning de tipo red trans- formers mediante la técnica transfer learning. Por último, se ha diseñado custom rule-based matching para el reconocimiento y extracción de entidades y palabras clave de interés. Para poner la herramienta en producción, se ha desarrollado una interfaz de usuario que muestra la salida de los modelos de forma gráfica y permite a los agentes encargados de supervisarlo introducir las correcciones a las predicciones del modelo para su posterior ajuste y mejora. [EN] Kongsberg Maritime is a technology enterprise that delivers systems for positioning, surveying, navigation, and automation to merchant vessels and offshore installations. It is of critical importance for them to have a mature and effective reporting management system that allows analyzing and classifying all the available information to support the decision-making process. The company will benefit directly from this proposal since it will allow automating the process of reviewing and extracting information from the reports and dedicate the resources formerly involved in that to other areas of the business. As part of the Data Innovation Team, I have developed this project with the aim of automating the company's internal processes by applying artificial intelligence, more specifically, natural language processing techniques to the tasks of reviewing and classifying maintenance reports made by service engineers. First, a semi-supervised learning model, few-shot learning, has been developed for the task of classifying the text of a report into categories of interest. Once the predictions of this model have been corrected by domain experts and enough labeled data has been generated, supervised classifiers were then trained to improve the predictions and come up with a definitive model to put into production. A deep learning transformers type of model was also trained using the transfer learning technique. Finally, custom rule-based matching has been designed for the recognition and extraction of entities and keywords of interest. A user interface has been designed and developed to put the tool into production. It displays the output of the models graphically and interacts with internal databases to allow the agents in charge of supervising the model performance to introduce corrections to the predictions for later fine-tuning and improvement of the model. I would like to express my deepest gratitude to my advisor and mentor Jan Erik Hjelseth who offered guidance and support throughout my whole internship and made this project possible. His experience and approach to research and data science is a source of inspiration for me. Jan Erik Ofsti, Tore Tveit, Steve May are amazing team and I truly appreciate having the opportunity to work with such a professionals. |
Databáze: | OpenAIRE |
Externí odkaz: |