DQN applicerad på Candy Crush Friends Saga : Ett tillvägagångssätt med förstärkande inlärning

Autor: Karnsund, Alice
Jazyk: angličtina
Rok vydání: 2019
Předmět:
Popis: This degree project presents a reinforcement learning (RL) approach called deep Q-network (DQN) for learning how to play the game Candy Crush Friends Saga (CCFS). The DQN algorithm is implemented together with three extensions, which in 2015 resulted in a new state-of-the-art on the Atari 2600 domain. This thesis shows that DQN in combination with the three extensions is an appropriate method for learning how to play CCFS. The influence that each of the extensions has on the performance is investigated separately, and reasoning for why or why not these extensions make sense in this environment is provided. CCFS is a stochastic game environment with many new features per level. This leads to a challenge when designing the reward function. This thesis investigates the impact of three different reward functions and reflects over why a certain type of design is more relevant. The results presented show that the DQN approach is able to learn a policy that increases its performance compared to that of random game-play. However, at this stage the performance is not yet reaching that of human game-play, but with further research we believe that it is possible. Det här examensarbetet introducerar djupt Q-nätverk (DQN), ett tillvägagångssätt med förstärkande inlärning (RL), för att lära sig att spela spelet Candy Crush Friends Saga (CCFS). DQN implementeras tillsammans med tre tillägg, som 2015 resulterade i ett nytt toppresultat på Atari 2600-domänen. Detta examensarbete visar att DQN i kombination med de tre tilläggen är en lämplig metod för att lära sig att spela CCFS. Inverkan varje tillägg har på prestationen analyseras separat, och argument för och emot varför dessa tillägg är bra alternativ presenteras. CCFS är ett stokastiskt spel med flera nya element per nivå. Detta inför svårigheter i modelleringen av belöningsfunktionen. Detta examensarbete undersöker tre olika belöningsfunktioner och reflekterar över varför en viss typ av design är mer lämplig. Resultaten visar att DQN kan lära sig beslutstaganden som ökar dess prestation i jämförelse med slumpmässigt spel. Resultaten når i nuläget inte upp till mänsklig prestanda, men medytterligare forskning så tror vi att detta går att uppnå.
Databáze: OpenAIRE