Popis: |
Human behavior understanding is an essential capability for developing applications and technologies for assisting our daily lives and work. Machines are expected to understand humans comprehensively from both activity and emotion aspects. This thesis is devoted to investigating computer vision and machine learning techniques for human behavior analysis. The study is conducted through three consecutive stages: (1) human action recognition through gestures; (2) human affective gesture recognition; and (3) human gesture detection. Firstly, this thesis investigates robust human action recognition using skeleton data. Skeleton data has been widely used for human behavior understanding recently, since its large-scale extraction at low cost has become feasible. However, the reliability of the extracted skeleton is a concern among researchers due to the possible inaccurate results caused by dynamic illumination, occlusion, and so on. To solve this problem, two noise-resistant skeleton-based action recognition methods are developed. Secondly, the thesis investigates human emotion understanding from body gestures. On the one hand, the problem of recognizing expressed emotion from body gestures is studied. For this purpose, a multi-scale graph convolution network that can effectively model the temporal dynamics for emotion recognition is developed. On the other hand, the thesis explores the recognition of micro-gestures for identifying human suppressed emotions. As a result, we collect a multi-modal micro-gesture dataset and propose an unsupervised micro-gesture recognition method. Lastly, this thesis studies the problem of human gesture detection. In real-world scenarios, a given video may contain an arbitrary number of gestures, and their start/end times are also unknown. Consequently, recognition methods on their own cannot be directly applied. Thus, an anchor-free gesture detector equipped with the attention-guided boundary refining module is developed that can localize the temporal locations of possible gestures and simultaneously recognize their types. In the last chapter, this thesis discusses the contributions and limitations of the work. Alongside this, we also discuss the future research direction of body gesture analysis, and propose its potential applications in human activity analysis and emotion understanding. Tiivistelmä Ihmisen käyttäytymisen ymmärtäminen on olennainen kyky sovellusten ja teknologioiden kehitykseen, jotka auttavat päivittäisessä elämässä ja töissä. Koneiden oletetaan ymmärtävän kattavasti sekä ihmisen toimintoja että tunteita. Tässä väitöskirjassa tutkitaan konenäön ja -oppimisen tekniikoita ihmisen käyttäytymisen analysointiin. Tutkimus tehdään kolmessa peräkkäisessä vaiheessa: (1) ihmisen toimintojen tunnistus eleiden avulla; (2) ihmisen affektiivinen eleiden tunnistaminen; ja (3) ihmisen eleiden ajallinen tunnistaminen. Ensimmäiseksi väitöskirjassa tutkitaan robustia ihmisen toimintojen tunnistusta käyttäen luurankodataa. Laajamittainen luurankodatan talteenotto pienillä kustannuksilla on tehnyt siitä suositun viime aikoina. Automaattisesti kerätyn luurankodatan luotettavuus on kuitenkin huolenaihe mahdollisten epätarkkuuksien vuoksi kuten vaihteleva valaistus, näköesteet ja niin edelleen. Ongelman korjaamiseksi kehitetään kaksi kohinan kestävää luurankodataan perustuvaa toiminnontunnistusmenetelmää. Toiseksi väitöskirjassa tutkitaan ihmisen tunteiden ymmärtämistä kehon eleistä. Tunteiden tunnistamiseen kehon eleistä kehitetään multi-skaala graafikonvoluutiomalli, joka pystyy tehokkaasti mallintamaan ajallista vaihtelua. Sen lisäksi tutkitaan mikroeleiden tunnistamista tukahdettujen tunteiden tunnistamiseen. Näiden seurauksena kerätään multimodaalinen mikroeleiden tietokanta ja kehitetään ohjaamattoman oppimisen mikroeleidentunnistusmenetelmä. Lopuksi väitöskirjassa tutkitaan ihmisen eleiden ajallista tunnistamista. Käytännön tilanteissa videoissa voi olla mielivaltainen määrä eleitä ja niiden aloitus- ja lopetusajankohdat ovat tietämättömiä. Tämän seurauksena pelkkä eleiden tunnistus tekniikka ei riitä. Täten kehitetään ankkuriton eleidentunnistin tarkkaivaisuusohjatulla rajantarkennusmoduulilla, joka pystyy samanaikaisesti tunnistamaan sekä eleiden ajanhetket että tyypit. Väitöskirjan viimeisessä kappaleessa keskustellaan työn vaikutuksista ja rajoitteista. Sen lisäksi keskustellaan tulevaisuuden tutkimussuunnista eleiden analyysiin ja niiden sovelluksista ihmisen toiminnon analyysiin ja tunteiden ymmärtämiseen. |