Reward Shaping in Reinforcement Learning for Multi-Agents Games

Jazyk: angličtina
Rok vydání: 2022
Předmět:
DOI: 10.26262/heal.auth.ir.342501
Popis: Η ανάγκη αποδοτικότητας δειγμάτων στην Ενισχυτική Μάθηση αποτελεί ένα όλο και περισσότερο σημαντικό ζήτημα με την αύξηση του μεγέθους μοντέλων πρακτόρων και την ανάγκη επίλυσης όλο και πιο σύνθετων προβλημάτων. Στόχος της διατριβής αυτής είναι η πραγμάτευση καινοτόμων μεθόδων μορφοποίησης ανταμοιβών για παιχνίδια φυσικής πολλαπλών πρακτόρων, στα πλαίσια του παιχνιδιού του Rocket League, εφαρμόσιμες και σε άλλους τομείς και ικανές βελτίωσης της αποδοτικότητας. Πρωτεύον σκοπός είναι η υλοποίηση ενός state-of-the-art πράκτορα για το Rocket League. Αρχικά, εκπαιδεύθηκαν τρεις πράκτορες σε διάστημα 3 εβδομάδων για μελέτες αφαίρεσης (ablation studies) ώστε να μελετηθεί η επίπτωση επιπρόσθετων προηγούμενων πράξεων στην παρατήρηση του πράκτορα και η επίπτωση αφαίρεσης στατικών αντικείμενων και σημείων αναφοράς από την παρατήρηση. Τα αποτελέσματα έδειξαν πως η αφαίρεση στατικών αντικείμενων έχει ενδεχομένως επίπτωση στον συντονισμό του πράκτορα, μειώνοντας όμως κατά πολύ τον χρόνο εκπαίδευσης, και πως η πρόσθεση προηγούμενων πράξεων έχει πολύ θετικά αποτελέσματα, με αμελητέο μάλιστα κόστος στην πολυπλοκότητα του μοντέλου. Έπειτα, αναπτύχθηκε βιβλιοθήκη μελέτης ανταμοιβών για το Rocket League που επέτρεψε την οπτικοποίηση των ανταμοιβών στην αρένα και την μετάφραση δεδομένων replay σε τιμές ανταμοιβών. Με βάση προβλήματα που αναγνωρίσθηκαν με την χρήση της βιβλιοθήκης, αναπτύχθηκαν καινοτόμες μέθοδοι συνδυασμού και παραμετροποίησης ανταμοιβών, μέσω των οποίων προέκυψαν νέες ανταμοιβές. Ακόμη, πραγματεύτηκαν δύο τρόποι μετατροπής της κατάστασης του παιχνιδιού σε γράφο, οι οποίες επιτρέπουν την χρήση Νευρωνικών Δικτύων Γράφων και την κωδικοποίηση χωρικής πληροφορίας. Με βάση τις καινοτόμες αυτές ανταμοιβές, εκπαιδεύτηκαν τρεις πράκτορες μέσα σε διάστημα 2 μηνών, ένας από τους οποίους αποδείχθηκε κατά πολύ ισχυρότερος του τωρινού state-of-the-art, κατορθώνοντας ταυτόχρονα την επιτάχυνση της εκπαίδευσης με την χρήση λιγότερων χαρακτηριστικών στην παρατήρηση και των καινοτόμων μας ανταμοιβών.
The need for sample efficiency in Reinforcement Learning is an increasingly important issue as agent models get larger and ever more complex problems arise. The goal of this thesis is to realize innovative reward formulation methods for multi-agent physics games in the context of the game of Rocket League, applicable to other domains and capable of improving efficiency. The primary aim is the implementation of a state-of-the-art agent for Rocket League. Initially, three agents were trained over a 3-week period for performing ablation studies and studying the impact of additional previous actions on the agent's observation and the impact of removing static objects and reference points from the observation. The results showed that removal of static objects has a potential impact on the agent's coordination, but greatly reduces the training time, and that the addition of previous actions in the observation has very positive effects, with negligible cost in model complexity. Next, a reward study library was developed for Rocket League that allowed visualization of rewards in the arena and translation of replay data into reward values. Based on problems identified using the library, innovative methods of combining and parameterizing rewards were developed, through which new rewards were derived. Furthermore, two ways of converting the game state into a graph were discussed, which allow the use of Graph Neural Networks and the encoding of spatial information. Based on these novel rewards, three agents were trained within a period of 2 months, one of which proved to be substantially more powerful than the current state-of-the-art, managing at the same to accelerate training through the use of fewer features in the observation and our novel rewards.
Databáze: OpenAIRE