Popis: |
Konuşma insanlar arasındaki hızlı ve en doğal iletişim yöntemlerindendir. Konuşmadan duygu tanıma çalışmaları, konuşma sırasındaçıkan ses sinyalinden anlam bilgisini elde etmeye çalışmaktadırlar. Son yıllarda konuşma sinyalleri üzerinden duygu analizi ile ilgiliolarak birçok çalışma yapılmıştır. Bu çalışmalarda duygu analizinde 3 önemli yön dikkate alınarak detaylı bir araştırma yapılmıştır.Birinci konu konuşma sinyallerinden öznitelik çıkarma, ikinci konu bu özniteliklerden sınıflandırmaya olumlu katkısı olacaklarınseçimi ve üçüncü konu ise sınıflandırma şemalarının tasarımı ve performans değerlendirmesidir. Özniteliklerin doğru belirlenmesi,öznitelikler üzerinde seçme işleminin başarılı bir şekilde uygulanması performansı büyük ölçüde etkilemektedir. Ancak sestenözniteliklerin çıkarılması, ve sınıflandırılmasında farklı yöntemler tercih edilse de performans veri setlerine, duygu durumlarına,dillere, eğitim setinin kullanım yöntemine göre değişebilmektedir. İncelenen makaleler kapsamında sınıflandırıcı olarak en sık SVMve öznitelik olarak da MFCC kullanılmıştır. En yüksek tanıma oranı ise TESS veri setinde oto-kodlayıcı ve Alex-net CNN ilesağlanmış ve %98 başarı elde edilmiştir. Speech is one of the fastest and most natural communication methods between people. Emotion recognition studies without speech tryto obtain semantic information from the sound signal during speech. In recent years, many studies have been carried out on emotionanalysis over speech signals. In these studies, detailed research was conducted by considering 3 important aspects in sentimentanalysis. The first topic is feature extraction from speech signals, the second topic is the selection of these features that will contributepositively to the classification, and the third topic is the design and performance evaluation of the classification schemes. The correctdetermination of the features and the successful implementation of the selection process on the features greatly affect theperformance. However, although different methods are preferred in the extraction and classification of features from the voice, theperformance may vary according to the data sets, moods, languages, and the method of use of the training set. Generally, among thearticles examined, SVM was used as the classifier and MFCC was used as the feature. The highest recognition rate was achieved withthe auto-encoder, TESS dataset and Alex-net CNN and 98% success was achieved. |