Research, development and evaluation of a practical model for sentiment analysis
Autor: | Beltrán de la Cita, Jorge |
---|---|
Přispěvatelé: | Griol Barres, David, Universidad Carlos III de Madrid. Departamento de Informática |
Jazyk: | angličtina |
Rok vydání: | 2014 |
Předmět: | |
Zdroj: | e-Archivo. Repositorio Institucional de la Universidad Carlos III de Madrid instname |
Popis: | Sentiment Analysis is the task of extracting subjective information from input sources coming from a speaker or writer. Usually it refers to identifying whether a text holds a positive or negative polarity. The main approaches to carry out Sentiment Analysis are lexicon or dictionary-based methods and machine learning schemes. Lexicon-based models make use of a prede ned set of words, where each of the words composing the set has an associated polarity. Document polarity will depend on the feature selection method, and how their scores are combined. Machine-learning approaches usually rely on supervised classifiers. Although classifiers offer adaptability for specific contexts, they need to be trained with huge amounts of labelled data which may not be available, specially for upcoming topics. This project, contrary to most scientific researches over this field, aims to go further in emotion detection and puts its efforts on identifying the actual sentiment of documents, instead of focusing on whether it may have a positive or negative connotation. The set of sentiments used for this approach have been extracted from Plutchik's wheel of emotions, which defines eight basic bipolar sentiments and another eight advanced emotions composed of two basic ones. Moreover, in this project we have created a new scheme for SA combining a lexicon-based model for getting term emotions and a statistical approach to identify the most relevant topics in the document which are the targets of the sentiments. By taking this approach we have tried to overcome the disadvantages of simple Bag-of-words models that do not make any distinctions between parts of speech (POS) and weight all words commonly using the tf-idf scheme which leads to overweight most frequently used words. Furthermore, in order to improve knowledge, this projects presents a heuristic learning method that allows improving initial knowledge by converging to human-like sensitivity. In order to test proposed scheme's performance, an Android application for mobile devices has been developed. This app allows users taking photos and introducing descriptions which are processed and classi ed with emotions. Classi cation that may be corrected by the user so that system performance statistics can be extracted. El Análisis de Sentimientos consiste en extraer información subjetiva de lenguaje escrito u oral. Habitualmente se basa en identificar si un texto es positivo o negativo, es decir, extraer su polaridad. Las principales formas de llevar a cabo el Análisis de Sentimientos son los métodos basados en dictionarios y en aprendizaje automático. Los modelos basados en léxicos hacen uso de un conjunto predefinido de palabras que tienen asociada una polaridad. La polaridad del texto dependerá los elementos analizados y la forma en la que se combinan sus valores. Las aproximaciones basadas en aprendizaje automático, por el contrario, normalmente se apoyan en clasificadores supervisados. A pesar de que los claificadores ofrecen adaptabilidad para contextos muy específicos, necesitan gran cantidad de datos para ser entrenados no siempre disponibles, como por ejemplo en temas muy novedosos. Este proyecto, al contrario que la mayoría de investigaciones en este campo, intenta ir m as allá en la detección de emociones y pretende identificar los sentimientos del texto en vez de centrarse en su polaridad. El conjunto de sentimientos usados para este proyecto esrá basado en la Rueda de las Emociones de Plutchik, que define ocho sentimientos básicos y ocho complejos formados por dos básicos. Además, en este proyecto se ha creado un nuevo modelo de AS combinando léxicos para extraer las emociones de las palabras con otro estadístico que trata de identificar los temas más importantes del texto. De esta forma, se ha intentado superar las desventajas de los modelos Bag-of-words que no diferencian entre clases de palabras y ponderan todas las palabras usando el esquema tf-idf, que conlleva sobreponderar las palabras más usadas. Asimismo, para mejorar el conocimiento del proyecto, se ha implementado un método de aprendizaje heurístico que permite mejorar el conocimiento inicial para converger con la sensibilidad real de los humanos. Para evaluar el rendimiento del modelo propuesto, una aplicación Android para móviles ha sido desarrollada. Esta app permite a los usuarios tomar fotos e introducir descripciones que son procesadas y clasificadas por emociones. Clasificación que puede ser corregida por el usuario permitiendo así extraer estadísticas del rendimiento del sistema. Ingeniería Informática |
Databáze: | OpenAIRE |
Externí odkaz: |