Sentiment classification of arabic tweets using a novel learning sentiment-specific word embedding technique
Autor: | Mulki, Hala |
---|---|
Přispěvatelé: | Babaoğlu, İsmail, Bilgisayar Mühendisliği Anabilim Dalı, Enstitüler, Fen Bilimleri Enstitüsü, Bilgisayar Mühendisliği Ana Bilim Dalı |
Jazyk: | angličtina |
Rok vydání: | 2019 |
Předmět: | |
Popis: | The intensive use of social media during the "Arab Spring" incidents, has led to a sudden growth of the online Arabic opinionated content. Sentiment Analysis can recognize the opinions embedded in shared texts, providing real-time and long-term insights.With the Arabic social media data being dominated by dialectal Arabic, Arabic sentiment analysis models need to handle the complex morphological nature of the Arabic language, let alone, the non-standard grammatical properties and the variances among the Arabic dialects. Existing Arabic sentiment analysis models represent the sentiment embedded in dialectal Arabic either by hand-crafted features or text embedding ones. Hand-crafted features are usually generated based on dialect-specific Natural Language processing (NLP) tools and resources. On the other hand, text embedding features tend to use ordered, syntax-aware composition functions to produce sentence/paragraph embeddings learned within deep neural architectures. Given the current hand-crafted/embedding features, an Arabic sentiment analysis system developed for one dialect might not be efficient for the others, especially with the free word order, the varying syntactic nature and the drastic syntactic/semantic differences among the Arabic dialects. In this thesis, two dialect-independent Arabic sentiment analysis models equipped with hand-crafted and text embedding features are presented. While each model has its own type of sentiment features and classification methods, they both perform sentiment analysis of multiple Arabic dialects with the least dependence on Arabic NLP tools and without the need for external knowledge resources. In the Hand-Crafted based Tw-StAR model (HCB Tw-StAR), novel hand-crafted features based on the universal text components Named Entities (NEs) and various combinations of preprocessing tasks are proposed. Provided with these features, HCB Tw-StAR could achieve an improved sentiment classification performance for Arabic/non-Arabic contents at different analysis levels. In the second model Embedding Features-based Neural Tw-StAR (Neu Tw-StAR), novel sentiment-specific, syntaxignorant n-gram embedding features learned from labeled data and composed using the additive unordered composition function SOWE, are presented. Neu Tw-StAR trained with the proposed n-gram embeddings proved its efficiency to handle multiple Eastern and Western Arabic dialects, as it outperformed two state-of-the-art syntax-aware embedding methods: word2vec and doc2vec. Moreover, being implemented as a shallow feed-forward neural model, Neu Tw-StAR exhibited a competent and some times better performance, in addition it could decrease the consumed training time compared to deep neural models: Convolutional Neural Networks (CNN) and Long short Term Memory netwotks (LSTM) models. "Arap Baharı" olayları sırasında sosyal medyanın yoğun kullanımı, Arapça görüşlü içeriğin artmasına sebep olmuştur. Duygu Analizi, gerçek zamanlı ve uzun vadeli görüşler sunarak paylaşılan metinlere gömülü görüşleri tanıyabilir. Sosyal medyadaki Arapça içeriğin diyalektik Arapça baskın olması nedeniyle, Arapça duygu analizi modellerinin, Arapça dilin karmaşık olmayan morfolojik doğası bir yana, Arapçanın standart olmayan gramer özelliklerini ve Arapça lehçeler arasındaki varyasyonları da ele alması gerekir. Mevcut Arapça duygu analiz modelleri, diyalektik Arapça içeriğin duygusallığını el yapımı özelliklerle veya gömülü metinlerle temsil eder. El yapımı özellikler genellikle lehçeye özgü Doğal Dil İşleme (DDİ) araçları ve kaynaklarına göre oluşturulur. Bir diğer yandan, metin gömme özellikleri, derin sinirsel mimarilerde öğrenilen cümle/paragraf gömme işlemlerini üretmek için düzenli, söz dizimine duyarlı kompozisyon işlevlerini kullanma eğilimindedir. Geçerli el yapımı ve gömme özellikleri ele alındığında bir lehçe için geliştirilen bir Arapça duygu analiz sistemi, özellikle lehçenin özgür kelime sırası, değişken söz dizimsel doğası ve Arapça lehçeler arasındaki esaslı söz dizimsel/anlamsal farklılıklarla diğer lehçeler için etkili olmayabilir. Bu tezde, el yapımı ve metin gömme özellikleri ile donatılmış lehçe bağımsız iki Arapça duygu analizi modeli sunulmaktadır. Her modelin kendine özgü duygu özellikleri ve sınıflandırma yöntemleri olsa da, her iki model de Arapça DDİ araçlarına en az bağımlı olarak ve dış bilgi kaynaklarına ihtiyaç duymadan birden fazla Arapça lehçenin duygu analizini gerçekleştirmektedir. El yapımı temelinde olan Tw-StAR (HCB Tw-StAR) modelinde, evrensel metin bileşenleri Adlandırılmış Varlıklar (AV) ve ön işleme görevlerinin çeşitli kombinasyonlarını temel alan yeni el yapımı özellikler önerilmiştir. Sağlanan bu özellikler ile HCB Tw-StAR modeli, Arapça olan/Arapça olmayan içerikler için farklı analiz düzeylerinde geliştirilmiş bir duygusallık sınıflandırma performansı elde edebilir. Gömme özellikleri tabanlı sinirsel Tw-StAR (Neu Tw-StAR) isimli ikinci modelde ise, etiketli verilerden öğrenilen ve sırasız SOWE toplamsal kompozisyon işlevi kullanılarak oluşturulan yeni duygu-özgü, söz dizimi dikkate alınmayan n-gram gömme özellikleri sunulmuştur. Önerilen n-gram gömme özellikleri ile eğitilmiş olan Neu Tw-StAR modeli, literatürde temel model olarak kabul edilen "word2vec" ve "doc2vec" isimli iki söz dizimi temelindeki gömme metodundan daha iyi bir performans göstererek çok sayıda doğu ve batı Arapça lehçesini işleyebilme etkinliğini göstermiştir. Ayrıca, sığ bir ileri beslemeli sinir modeli olarak uygulanan Neu Tw-StAR modeli, Konvolüsyonel Sinir Ağları ve Uzun Kısa Süreli Bellek gibi derin sinir modelleri ile karşılaştırıldığında yetenekli bir model olmuş, bazen daha iyi bir performans ve derin sinir modellerine kıyasla kayda değer ölçüde daha az eğitim süresi sergilemiştir. |
Databáze: | OpenAIRE |
Externí odkaz: |