Vahvistusoppimis- ja minimax-agentin analysointi ja vertailu ristinollan avulla

Autor: Hautalahti, Joona
Přispěvatelé: Informaatioteknologian ja viestinnän tiedekunta - Faculty of Information Technology and Communication Sciences, Tampere University
Jazyk: finština
Rok vydání: 2021
Předmět:
Popis: Vahvistusoppimista käytetään koneoppimisessa opettamaan tekoälylle erilaisia tehtäviä. Nämä tehtävät voivat vaihdella pelien tekoälystä ihmisten kasvojen tunnistukseen. Vahvistusoppiminen voi käyttää monia erilaisia algoritmeja tekoälyn opettamiseen ja osa niistä soveltuu tiettyihin tehtäviin paremmin kuin toiset. Vahvistusoppimismenetelmät voi karkeasti jakaa kahteen metodiin: mallivapaisiin metodeihin ja malliin perustuviin metodeihin. Molemmilla metodeilla on hyvät ja huonot puolensa, mutta mallivapaat metodit ovat osoittautuneet tehokkaaksi tavaksi opettaa tekoälylle erilaisia pelejä. Tässä tutkielmassa esitellään tapa, jolla tekoälylle voidaan opettaa ristinollan pelaamista itseoppimismenetelmällä. Tavoitteena on tutkia, kuinka hyvin itseoppiva tekoäly oppii pelaamaan peliä ja kuinka ristinollan siirtojen laadullisuus kasvaa opetuskierrosten edetessä. Laadun vertailussa käytetään puuhakualgoritmia nimeltä minimax, jota verrataan käytettyyn vahvistusoppimismenetelmään. Vahvistusoppimisalgoritmina käytetään Q-oppimista (q-learning), joka perustuu niin sanottuun q-funktioon. Itseoppimismenetelmän laatua mitattiin kokeellisissa testeissä. Näissä kokeissa vahvistusoppimismenetelmää hyödyntävää tekoälyä verrattiin minimax-tekoälyyn vertailemalla niiden tekemien siirtojen laatua. Kokeet osoittivat, että itseoppimismenetelmän laatu paranee lukumäärän n kasvaessa. Testien tulosten perusteella voi tehdä johtopäätöksen, että itseoppivan tekoälyn on mahdollista saavuttaa minimax-puuhakualgoritmin kaltaisia tuloksia pelin laadussa. Itseoppiva tekoäly on myös paljon tehokkaampi ja nopeampi laskemaan tekemiään siirtoja kuin minimax-puuhakualgoritmi. Parannettavaa itseoppivalla tekoälyllä on kuitenkin jossain määrin siirtojen optimaalisessa valinnassa. Kokeellisen toteutuksen tuloksia voidaan käyttää kehittämään entistä tehokkaampia agentteja.
Databáze: OpenAIRE