Context-aware sentiment analysis : a lexicon-based machine learning approach

Autor: Gindl, Stefan
Jazyk: angličtina
Rok vydání: 2015
Předmět:
DOI: 10.34726/hss.2015.29770
Popis: Sentimentanalyse ist jenes Forschungsfeld, dass sich mit der Konzeption, Implementierung und Evaluierung von Systemen besch��ftigt, die menschliche Stimmungen verstehen sollen. Durch die breite Verf��gbarkeit von stimmungsgeladenen Aussagen im World-Wide-Web und leistungsstarken Algorithmen zu deren Analyse, hat sich das Forschungsfeld von seinem Nischendasein zu einem zentralen Bestandteil vieler Forschungsprojekte entwickelt. Sein hoher wirtschaftlicher Wert ergibt sich aus seiner zentralen Rolle in Media-Intelligence-Systemen. Diese unterst��tzen Marketing-Kampagnen und sammeln KundInnenfeedback aus dem gro��en Pool von online verf��gbaren, geschriebenen Meinungen. Entscheidungstr��ger k��nnen dadurch aktuelle Markttrends leichter nachvollziehen und Marketingstrategien dementsprechend anpassen. Sentimentanalyse erweist sich auch im politischen Bereich als n��tzliches Werkzeug. Politische Kampagnen lassen sich damit evaluieren und sie unterst��tzt dabei, die Stimmung bei Ereignissen von ��ffentlichem Interesse zu messen, etwa dem Klimawandel oder einem Krieg. Meinungsforschung wird dadurch in einem so gro��en Stil m��glich, wie sie vor Zeiten des World-Wide-Web undenkbar gewesen w��re. Die Verf��gbarkeit leistungsstarker Rechner gestattet es, komplexe Algorithmen, etwa aus dem maschinellen Lernen oder der nat��rlichen Sprachverarbeitung, in angemessener Zeit auszuf��hren. Die vorliegende Arbeit besch��ftigt sich damit, eine zentrale Ressource der Sentimentanalyse zu verbessern: das Sentimentlexikon. Dieses Lexikon enth��lt stimmungstragende Terme zusammen mit einer Einsch��tzung ihrer Polarit��t. Diese Stimmungsladung wird h��ndisch ermittelt und ist statisch, selbst in F��llen, wo sich die Ladung eines Wortes durch den Kontext, in dem es verwendet wird, ver��ndern kann. Das Wort "k��hl" l��st beispielsweise in "ein k��hler Kopf" oder "ein k��hler Blick" entgegengesetzte Empfindungen aus. Diese Ladungsver��nderungen limitieren die Leistungsf��higkeit von Systemen, die von statischen Ladungen ausgehen. In der vorliegenden Arbeit werden Sentimentlexikons mit Kontexttermen erweitert, d.h. mit Termen, die h��ufig gemeinsam mit bestimmten Sentimenttermen vorkommen. Die Wahrscheinlichkeit des gemeinsamen Auftretens wird im Lexikon mitgespeichert, wodurch aus dem klassischen Sentimentlexikon ein kontextualisiertes Lexikon entsteht. Mit so einem Werkzeug ausgestattet ist ein Sentimentanalysesystem in der Lage, sich flexibel an unterschiedliche Kontexte anzupassen. Eine formelle Evaluierung zeigte die Wirksamkeit des vorgestellten Ansatzes. Sie folgte dabei einer in der Sentimentanalyse ��blichen Vorgehensweise, bei der Produkt- und Servicekritiken aus unterschiedlichen Dom��nen als Evaluierungskorpus herangezogen werden. Durch die Berechnung von Recall, Precision und F-Measure in einer zehnfachen Kreuzvalidierung konnte gezeigt werden, dass der vorgestellte Ansatz einen Schlagwortansatz mit statischen Ladungen ��bertrifft.
Sentiment analysis, the research area focusing on the creation, implementation, and evaluation of systems for the analysis of human attitudes, has become increasingly interesting for researchers of diverse special fields such as artificial intelligence, computational linguistics, or psychology. With the wide availability of opinionated statements on the Web and the creation of ever more powerful algorithms, the research area has gotten off the sidelines and moved into the focal point of many scientific projects. It has a significant business value, as it is a central component of media intelligence systems, supporting decisions for marketing campaigns and collecting customer feedback from the large pool of opinions on the Web. It helps decision makers to understand trends on the market, which eventually helps to adapt current marketing strategies. Sentiment analysis also proves beneficial in the political area, by evaluating a political campaign or to measure public awareness towards events of public interest, e.g. climate change or wars. An elicitation of opinions on such a large scale was inconceivable in the era before the World Wide Web and becomes feasible merely because of the existence of powerful technologies, such as machine learning and natural language processing. This work aims at improving a central resource crucial in sentiment analysis, the sentiment lexicon. These collections of opinionated terms store a-priori charges for each term, indicating whether a term conveys positive or negative sentiment. The charges are bound to manual assessment, even in cases where a term is ambiguous and might change its charge depending on the context. For instance, the term "cool" triggers opposite emotions in the sentence "the cool car" and "she mustered him with a cool glance". These polarity changes limit approaches which depend on static a-priori charges. The present work expands the sentiment lexicon with context terms, i.e. terms frequently co-occurring with the sentiment term. Analysing their frequency of co-occurrence in positive and negative contexts and storing the probability of co-occurrence results in the creation of contextualized lexicons. The probabilities for positive and negative con- text supersede the fixed a-priori values. A system armed with such a tool is capable of flexibly adapting the sentiment value of one and the same term based on the context it is used in. A formal evaluation shows the efficacy of the approach. The evaluation follows a method well-established in sentiment analysis: a corpus consisting of product and service reviews from different domains is the basis for the evaluation. Calculating recall, precision, and f-measure in a ten-fold cross-validation shows that the proposed approach outperforms a traditional keyword lookup algorithm with fixed polarities.
Databáze: OpenAIRE