Türkçe Otel Yorumlarıyla Eğitilen Kelime Vektörü Modellerinin Duygu Analizi ile İncelenmesi
Autor: | Hüseyin Ahmetoğlu, Resul Das |
---|---|
Přispěvatelé: | Midyat Meslek Yüksekokulu |
Jazyk: | turečtina |
Rok vydání: | 2020 |
Předmět: |
Doğal dil işleme
Veri kazıma Duygu analizi Yinelenen yapay sinir ağı Word2Vec Kelime Gömme Natural language processing Data scraping Sentiment analysis Recurrent neural networks Word2Vec Word embeddings General Medicine Natural language processing Data scraping Sentiment analysis Recurrent neural networks Word2Vec Word embeddings Doğal dil işleme Veri kazıma Duygu analizi Yinelenen yapay sinir ağı Word2Vec Kelime Gömme |
Zdroj: | Volume: 24, Issue: 2 455-463 Süleyman Demirel Üniversitesi Fen Bilimleri Enstitüsü Dergisi |
ISSN: | 1308-6529 |
Popis: | Doğal dil işlemenin(Natural Language Processing-NLP) ve metin sınıflandırmanın önemli araştırma alanlarından biri de duygu analizidir. Bu alanda çalışmalar hızla büyümektedir. Bu teknik dijital yaşamın her çeşit uygulama alanında kendini göstermektedir. Duygu analizi için geliştirilen birçok teknik vardır ancak son zamanlarda doğal dil işlemenin kelime vektör modeli metotları duygu analizinde yaygın olarak kullanılmaya başlamıştır. Word2Vec kelimeleri anlamlı vektörlere dönüştürebilen en kullanışlı kelime vektör modeli yöntemleri arasındadır. Bu yöntem ile kelime vektörleri oluşturabilmek için büyük kelime havuzlarına ihtiyaç vardır. Önceden eğitilmiş modeller duygu analizinde daha doğru sonuçlara ulaşabilmeyi mümkün kılarlar. Bu çalışmada duygu analizinde incelenmek üzere, onaylanmış kullanıcıların Türkçe otel yorumları veri kazıma yöntemleri ile toplanmıştır. Elde edilen bu özgün veriler Word2Vec ile eğitilerek kelime vektörleri oluşturulmuştur. Bu vektörler ile tekrarlanan yapay sinir ağının (Recurrent Neural Networks-RNN) bir çeşidi olan geçitli tekrarlayan birimler (Gated Recurrent Unit-GRU) ile bir sınıflandırma modeli geliştirilmiştir. Daha geniş kelime torbalarıyla eğitilmiş kelime vektörleri ile rastgele değerler atanarak oluşturulan vektörler, aynı derin öğrenme yöntemiyle yeniden incelenmiş ve elde edilen sınıflandırma başarıları karşılaştırılmıştır. Elde edilen sonuçlara göre özel alandan bağımsız, daha geniş kapsamlı kelime torbalarının sınıflandırma başarısını arttırdığı gözlemlenmiştir. One of the important research areas of Natural Language Processing and text classification is sentiment analysis. Studies in this area are growing rapidly. This technique manifests itself in all kinds of applications of digital life. There are many techniques developed for sentiment analysis, but recently, word embedding methods of natural language processing have become widely used in sentiment analysis. Word2Vec is one of the most useful word embedding methods that can convert words into meaningful vectors. In order to create word vectors with this method, large word pools are needed. Pre-trained models make it possible to achieve more accurate results in sentiment analysis. In this study, Turkish hotel reviews of approved users were collected by data scraping methods for examination of sentiment analysis. Obtained from the original data by training with Word2Vec word vectors were created. With these vectors, a classification model has been developed with Gated Recurrent Unit which is a kind of Recurrent Neural Networks. The vectors formed by assigning random values to wider corpus-trained word vectors were re-examined with the same deep learning method and the obtained classification successes were compared. According to the results, it was observed that the broader corpus independent of the private area increased the success of classification. |
Databáze: | OpenAIRE |
Externí odkaz: |