Transfer learning for continuous control

Autor: Ada, Suzan Ece
Přispěvatelé: Akın, Hüseyin Levent, Bilgisayar Bilimleri ve Mühendisliği Anabilim Dalı
Jazyk: angličtina
Rok vydání: 2019
Předmět:
Popis: Derin pekiştirmeli öğrenme algoritmaları ile eğitilen etmenler, sürekli ortamlarda hareket dahil olmak üzere oldukça karmaşık görevleri gerçekleştirme yeteneğine sahiptir. İnsan düzeyinde bir performans elde etmek için bir görevde edinilen öğrenmeyi bilinmeyen görevlere transfer etme yeteneğini geliştirmek bu alandaki araştırmalarının bir sonraki adımı olmalıdır. Derin pekiştirmeli öğrenmede genelleme, öğrenim aktarımı araştırmalarında yeterince ele alınmamaktadır ve hatalı değerlendirme kriterlerine yol açarak yanlış algoritma karşılaştırmalarına neden olmaktadır. Bu tezde, örnekleme seçilimi ve erken durdurma yoluyla sürekli kontrol için politika gradyan algoritmalarına özgü yeni düzenleme teknikleri önerdik. Kırpma parametresi ile örnekleme seçilimi önererek aşırı öğrenmeye engel olarak, yüksek genelleme kapasitesine sahip bir robot için dayanıklı politikalar elde ettik. Derin öğrenme aktarımı problemlerinde yaygın olarak kullanılan hiperparametrelere optimizasyon iterasyonunun da dahil edilmesini önerdik. Yöntemlerimizin geçerliliğini farklı yerçekimleri ve teğetsel sürtünme ortamlarına başarılı öğrenim aktarımı gerçekleştirerek kanıtladık. Ağır kutu taşıyan bir kurye robotu deneyi tasarladık ve metotlarımızın üstün performansını grafiklerle gösterdik. Standart insansı robottan daha uzun ve daha kısa insansı robotlara başarılı bir şekilde yürüme görevini aktardık. Kaynak görev performansı, algoritmanın genelleştirme kapasitesinin bir göstergesi olmadığı için üç farklı öğrenimi aktarımı değerlendirme yöntemi önerdik. Entropi bonusu, farklı eleştirmen mimarileri ve müfredat öğrenimi kullanarak dayanıklı çekişmeli pekiştirmeli öğrenme algoritmasının genelleştirme kapasitesini arttırdık. Çekişmeli ağlar için genelleştirilmiş avantaj hesaplayıcısı tasarladık ve geliştirdiğimiz bu yöntem ile zıplayıcı robotu ağırlaştırdığımız hedef ortamda daha iyi performans gösteren politikalar elde ettik. Çekişmeli algoritmaların dayanıklılığını morfolojik olarak değiştirilmiş zıplayıcı robotlarda ve bilinmeyen yerçekimli ortamlarda tasarladığımız kriterlere göre değerlendirdik. Agents trained with deep reinforcement learning algorithms are capable of performing highly complex tasks including locomotion in continuous environments. In order to attain a human-level performance, the next step of research should be to investigate the ability to transfer the learning acquired in one task to unknown tasks. Concerns on generalization and overfitting in deep reinforcement learning are not usually addressed in current transfer learning research. This issue results in simplistic benchmarks and inaccurate algorithm comparisons due to rudimentary assessments. In this thesis, we propose novel regularization techniques exclusive to policy gradient algorithms for continuous control through the application of sample elimination and early stopping. By discarding samples that lead to overfitting via strict clipping we will generate robust policies for a humanoid with high generalization capacity. We also suggest the inclusion of training iteration to the hyperparameters in deep transfer learning problems. We recommend resorting to earlier snapshots of parameters depending on the target task due to the occurrence of overfitting to the source task. We demonstrate that a humanoid is capable of performing forward locomotion in unseen environments with different gravities and tangential frictions using strict clipping and early stopping. Furthermore, we evaluate our propositions on a delivery task where a humanoid is required to carry a heavy box while walking and inter-robot transfer tasks where the humanoid transfers its learning to taller and shorter robots. Because source task performance is not indicative of the generalization capacity of the algorithm we propose three different transfer learning evaluation methods. We increase the generalization capacity of a state-of-art adversarial algorithm by introducing entropy bonus, proposing different critic architectures and using simpler adversaries. Finally, we evaluate the robustness of these adversarial algorithms on morphologically modified hopper environments and environments with unknown gravities according to the criteria we proposed. 128
Databáze: OpenAIRE