Ses telleri video görüntülerinden otomatik glottis tespiti = Automatic glottis detection on vocal cord video images

Autor: Yılmaz, Ayşenur, 1994- author 221513, Koç, Turgay, 1976- 109414 thesis advisor, Süleyman Demirel Üniversitesi. Fen Bilimleri Enstitüsü. Elektronik ve Haberleşme Mühendisliği Anabilim Dalı. 9124 issuing body
Jazyk: turečtina
Předmět:
Popis: Bu çalışmada ses tellerinin yüksek hızlı görüntülerinden otomatik glottis tespit edilmesi için yeni bir sistem önerilmiştir. Önerilen sistem ses tellerinin açık veya kapalı olmasından bağımsız olarak glottis tespiti gerçekleştirebilmektedir. Geliştirilen sistem piksel tabanlı ve bölge tabanlı olmak üzere iki sınıflandırma modelinin birleşiminden oluşmaktadır. Piksel tabanlı sistem için 3x3 'lük RGB görüntü bileşenlerini öznitelik olarak kullanan Gauss karışım modeli, literatürde bulunan aynı öznitelik setini kullanan çok katmanlı derin yapay sinir ağı modeli referans sistem olarak kabul edilerek sığ bir yapay sinir ağı yapısıyla birlikte karşılaştırılmıştır. Piksel sınıflandırmada performans ölçütleri incelenmiş ve sistemlerin eğitiminde doğruluk ölçütü yerine eşit hata oranı altında en yüksek hassasiyete sahip olan model kullanılarak glottis lokalizasyon performansının arttırılabileceği gösterilmiştir. Önerilen 4096 karışımlı Gauss Karışım modeli piksel sınıflandırmada referans sisteme göre %22, glottis tespitinde ise %12 daha iyi performans göstermiştir. Glottis tespit performansını arttırmak için ikili görüntülerin morfolojik işlemler ve medyan filtreler kullanılarak iyileştirilmesi ve temel sistemde önerilmiş olan eşik değer tabanlı sınıflandırma sistemi yerine glottis bölgesinin yoğunluk ve şekilsel özelliklerini tanımlamak için alan, eksantriklik, oryantasyon, dairesellik ve ortalama yoğunluk değerlerini içeren 5 boyutlu öznitelik vektörü tasarlanmış ardından yapay sinir ağı tabanlı bölge sınıflandırma sistemi oluşturulmuştur. Önerilen sistem IRCAM HSV görüntü veritabanından model eğitimi ve performansının ölçülmesi için 1800 çerçeveden rastgele seçilmiş manuel olarak işaretlenmiş görüntüler %50 eğitim, %25 doğrulama ve %25 değerlendirme olmak üzere gruplandırılmıştır. Her çerçeve için piksel sınıflandırma sonucunda elde edilmiş ikili görüntüler farklı boyutlarda medyan filtre ve morfolojik işlemlerden geçirilmiş ardından her bölge için öznitelikler çıkarılarak sınıflandırma sistemi eğitilmiştir. Geliştirilen sistem medyan filtre ile iyileştirilmiş görüntüler ile birlikte kullanıldığında, ses tellerinin kapalı olması durumunu ihmal eden referans sisteme göre, glottis tespit doğruluğunu 0,21'den 0,76'ya çıkararak önemli bir performans artışı sağlamıştır. Anahtar Kelimeler: Görüntü işleme ve tanıma, makine öğrenmesi, konuşma işleme.
In this study, a new system has been proposed for automatic detection of glottis from high speed images of the vocal cords. The proposed system can detect glottis regardless of whether the vocal cords are open or closed. The developed system consists of a combination of two classification models, pixel-based and region-based. For the pixel-based system, the Gaussian mixture model using 3x3 RGB image components as attributes, the multi-layered deep artificial neural network model using the same feature set in the literature was accepted as the reference system and compared with a shallow neural network structure. Performance criteria in pixel classification have been examined and it has been shown that glottis localization performance can be increased by using the model with the highest sensitivity under equal error rate instead of the accuracy criterion in the training of systems. The proposed 4096 Gaussian Mix model performed 22% better than the reference system in pixel classification, 12% better in detecting glottis. In order to increase Glottis detection performance, the enhancement of binary images using morphological processes and median filters and the density and shape features of the glottis region were used instead of the threshold value based classification system proposed in the basic system. In order to define these features, a 5-dimensional feature vector containing area, eccentricity, orientation, circularity and average density values was designed and then an artificial neural network based region classification system was created. In order to measure model training and performance from the proposed system IRCAM HSV image database, randomly selected manually marked images from 1800 frames were grouped as 50% training, 25% verification and 25% evaluation. The binary images obtained as a result of pixel classification for each frame were subjected to different sizes of median filters and morphological processes, then the classification system was trained by extracting the features for each region. When the developed system is used with images enhanced with a median filter, it has increased the glottis detection accuracy from 0.21 to 0.76 compared to the reference system, which neglects the condition of the vocal cords being closed. Keywords: Image processing and recognition, machine learning, speech processing.
Tez (Yüksek Lisans) - Süleyman Demirel Üniversitesi, Fen Bilimleri Enstitüsü, Elektronik Haberleşme Mühendisliği Anabilim Dalı, 2021.
Kaynakça var.
Databáze: OpenAIRE