Learning How To Select An Action: From Bifurcation Theory To The Brain Inspired Computational Model

Autor: Denizdurduran, Berat
Přispěvatelé: Şengör, Neslihan Serap, Elektronik Mühendisliği, Electronics Engineering
Rok vydání: 2012
Předmět:
Popis: Tez (Yüksek Lisans) -- İstanbul Teknik Üniversitesi, Fen Bilimleri Enstitüsü, 2012
Thesis (M.Sc.) -- İstanbul Technical University, Institute of Science and Technology, 2012
En ilkel canlılardan en gelismis primat kabul edilen insana kadar doğru zamanda doğru kararlar verebilme yeteneğini üstlenen beyin bölgesi temelde aynı yapılardan oluşmaktadır. İnsan beynini üstün kılan neokorteksin bu devreyi referans alarak evrimleştiği iddia edilmektedir. En temel hayati kararlardan duyguların da devreye girdiği karmaşık kararlarda bilim insanlarının işaret ettiği beyin alt yapısı basal ganglia çekirdekleridir. Yapılan çalışmalar göstermektedir ki birden fazla döngü ile iç içe geçmiş bu bölge beynin birçok bölgesine aksonlarla bağlanmışken birçok bölgeden de uyarılar almaktadır. Basal ganglia devresine ilişkin herbir döngüyü bağlantı aldığı bölgelere bakarak fonksiyonel olarak sınıflandırabilmek mümkün olduğu gibi bu döngülerin birbirleriyle de sıkı bir ilişki içinde olduğunu söylemek mümkündür. Karar verme üst başlığı altında ilgilenilen yaklaşım eylem seçimidir. Eylem seçimi birden fazla seçeneğin olduğu durumlarda ortam şartlarına da bakarak en doğru eyleme yönelmemiz olarak tanımlanabilir. Bilişsel süreçlere ilişkin geliştirilmiş hesaplamalı (matematiksel) modellerin amacı canlıların davranışlarında rol alan bu mekanizmaları açıklamaya çalışmaktır. Bu modeller özellikle son yıllarda insansı robot çalışmalarında da kullanılmaktadır. Bu çalışmada vurgulanmak istenen ise karar verme ve pekiştirmeli öğrenmeye ilişkin bilişsel süreçlerin hesaplamalı modellerinin robotik uygulamalarını gerçekleştirmektir. Bu çalışmada özellikle motor hareketlerden sorumlu olduğu düşünülen dorsal korteks-basal ganglia-talamus devresi ile ilgilenilmiş ve bu bölgenin fonksiyonel yapısı sistem seviyesinde geliştirilen bir matematiksel model ile açıklanmak istenmiştir. Geliştirilen model lineer olmayan dinamik sistemler disiplininde ele alınıp ele alınan devreye sistem seviyesinde yaklaşan bir modeldir. Hesaplamalı sinirbilim son yıllarda birçok disiplinden bilim insanının ilgilenmeye başladığı bir disiplin haline gelmiştir. İnsan beyninden esinlenerek geliştirilen makine öğrenmesi algoritmalarından daha hızlı ve daha verimli yazılım teknikleri için beyin gibi programlama tekniklerine kadar özellikle mühendislerin ilgilendiği birçok konunun temelini oluşturmaya, bilim insanlarının meraklarının bu yöne çekilmesine sebep olmuştur. Günümüzün çözülememiş en büyük sorularından birinin beynin nasıl işlediği oluşu, bu soruna mühendislik bakış açısıyla da bakılmasını zorunlu hale getirmiştir. Beynin işleyişine ilişkin matematiksel modeller ve bu modellerin test edilmesi güçlü yazılım tekniklerine ve de matematiksel bakış açısına sahip olunmasını gerektirmektedir. Ele alınan bu tezde, beynin işleyişine ilişkin en popüler sorulardan biri olan eylem seçimini nasıl veririz, bu bilişsel süreci kontrol eden beyne ilişkin devreyi modelleyebilir miyiz ve modelimizi nasıl test ederiz sorularıyla başlandı. Amaca yönelik davranışlar ve pekiştirmeli öğrenmeye dair bilişsel süreçlerin hesaplamalı modelleri merkezi sinir sisteminin fonksiyonel birimleri ile sinir taşıyıcılarına dair bulgulara dayanmaktadır. Yapılan çalışmalar göstermiştir ki, bulunulan ortamdan alınan çeşitli uyaranlara bağlı olarak farklı seçenekler içerisinden yapılan seçimlerde basal ganglia çekirdeklerinin önemli bir rolü vardır. Nörofizyolojik bulgular basal ganglia çekirdeklerinin eylem seçiminde görev almasının yanında özellikle ödüle dayalı öğrenme ile de sıkı bir ilişkisinin olduğunu işaret etmektedir. Bu bulgulara dayanarak, geliştirilen matematiksel model ile zamansal fark öğrenme algoritması birlikte ele alınmış ve dinamik sistemler yaklaşımında geliştirilmiş olan modelin dallanma analizleri yapılarak basal ganglia çekirdeklerinde öğrenmenin nasıl gerçekleştiğine ilişkin bir metot geliştirilmiştir. Model ve geliştirilen öğrenme metotu tıpkı nörofizyolojik bulgularında işaret ettiği gibi basal ganglia çekirdeklerinin en önemlisi olan striatumun ve striatuma etki eden dopamin hormonunun öğrenmedeki etkisini modelleyebilmektedir. Ödül ve doğru karar arasında kurulan ilişki dopamine karşı düşen parametre ile kontrol edilebilmektedir. Modelin geliştirilmesi ve dallanma analizlerinin yapılmasından sonra hesaplamalı sinirbilim literatüründe özellikle son yıllarda önem kazanan robotik bir uygulama ile test edilmesi amaçlanmıştır. Geliştirilen matematiksel modelin robotu kural tabanlı bir kodlama ile değil de tamamen modelin kararlarına bakılarak yönlendirmesi amaçlanmıştır. Test ortamında en temel üç hayati eylem ele alınmıştır. Bilinmedik bir ortamda bir farenin hayatta kalabilmesi için gerekli olan bu üç eylem, ortam içerisinde yem bulmak için hareket edebilme, önüne çıkan engellerden kaçınma ya da yem olduğunu düşündüğü cisimleri alma, ve eğer yem bulduysa güvenilir bulduğu yuvasına bu yemi taşıma olarak sınıflandırılabilir. Robot testimizde robot için de bu üç eylem yeniden organize edilmiş ve tekerleklere ilişkin motorları çalıştırıp ortam içerisinde rastgele hareket etme, engel, yem ve taşıyamayacağı kadar ağır olan yem arasındaki farkları ayırdedebilme ve potansiyel yemini kaldırma ve yine en son olarak ışıkla işaretlenmiş yuvasına dönme olarak dizayn edilmiştir. Robot üzerinde kullanılan uzaklık ve ışık sensörleri farenin dış dünyayı tanıyabilmesi, duyumsayabilmesi için kullandığı koku alma ve görme duyularını sembolize etmeye, anlamlandırmaya çalışmaktadır. Yapılan 30 simülasyon göstermiştir ki, bu çalışmada kullanılan hesaplamalı model ve pekiştirmeli öğrenme algoritması robota yem olarak tanıtmaya çalıştığımız silindirleri, engellerin olduğu bir ortamda, yaklaşık 6. ya da 7. denemesinde tanımış sürecin devamında yani yemi öğrendikten sonra yuvasını ise 3. ya da 4. denemesinde öğrenebilmiştir. Beklenildiği üzere robot bu 30 testin tamamını öğrenmeyle neticelendirmemiş, değişen ortam şartlarına bağlı olarak öğrenememe ile de karşılaşmıştır. Geliştirilmiş olan bu robotik test ortamı matematiksel model, bu modele ilişkin dallanma analizleri ve pekiştirmeli öğrenme aynı anda ele alınarak çözülmüştür. Test ortamı kurulurken görevlerin çok daha zorlu olmasındansa modelin ve öğrenme metotunun işlerliğinin görselleştirilmesi amaçlandığı için robota ilişkin görev basit tutulmuştur. Modelin ve öğrenme metodunun bu test ortamından başarı ile test edilmiş olması çok daha karmaşık testlerin de çözülebileceğine ilişkin bir ilk adım olarak düşünülmektedir. Geliştirilen matematiksel model beyne ilişkin alt yapılara ve alt yapıların birbirleriyle olan ilişkisi gözönüne alınarak modellenmiştir. Matematiksel modellerin bilişsel bilimdeki en önemli özelliklerinden biri de modellere bakarak tam tersine ele alınan beyne ilişkin alt yapılar hakkında yorumlar yapabilmenin mümkün olabilmesidir. Ele alınmış olan bu matematiksel model daha önce de vurgulandığı gibi birçok özel fonksiyonları karşılayabilme yeteneğine sahiptir, tıpkı dopamin ile öğrenme arasında bir ilişkiye işaret edebilmesi gibi. Matematiksel modelin bir diğer özelliği de ele alınan beyne ilişkin basal ganglia çekirdeklerinin fonksiyonel olarak bozulmasında görülen davranışsal bozukluklara da işaret edebilmesidir. Dopamin azlığının günümüzün en önemli rahatsızlıklarından biri olan Parkinson ile ilişkilendirilmesi ve Parkinson hastalarında belirgin olarak görülen eylem seçimine ilişkin görülen kararsızlık matematiksel model tarafından da karşılanabilmektedir. Benzer şekilde dopamin fazlalığının sebep olduğunun bilindiği genetik bir rahatsızlık olan Huntington hastalığının da modeldeki dopamin kontrol edilerek işaret edilebildiği gösterilmiştir. Eylem seçimine ilişkin elde edilen sonuçlar tıpkı Huntington hastalığında olduğu gibi aynı anda birden fazla eylemin çok kolay bir şekilde seçilebilmesini gösterebilmektedir. Bu çalışma ile, nöral yapılara dayanarak geliştirilen hesaplamalı modellerin robotik uygulamalarının, bilişsel süreçlerin anlaşılmasının yanı sıra makine öğrenmesi için de gerçekleştirilecek çalışmalara yeni bakış açısı kazandırabileceğine dair bir örnek teşkil etmesi amaçlanmıştır.
The computational models of cognitive processes affirm our understanding of the ongoing mechanisms and robot models are a further step in computational neuroscience. The main point of this thesis is to show the potential use of robot models for tasks requiring high order processes like action selection and reinforcement learning. Neurophysiological experimental results suggest that basal ganglia take part in selecting an action amongst different choices based on the saliencies of each possibility. There are computational models based on these experimental results for action selection. This work focuses on modification of action selection by dopamine release and a computational model capable of adapting it behaviour with parameter change is proposed. In this work, the aim is to investigate the effectiveness of the cortico-striato-thalamic model in a scenario based on rat’s behavior, so behavior of a rat is simulated on the mobile robot Khepera II. The proposed model has the ability of selecting the appropriate actions under changing environmental conditions, thus it is suitable to implement learning to become familiar with a new environment. The differences between the sensory systems of the mobile robots and the rat is resolved in order to mimic the behavior of a rat. The mobile robot is trained to learn to recognize the food and the place of the nest and it is capable of completing the task even though the conditions in the environment changes. In all of 30 trials, mobile robot recognizes the food approximately in 6 or 7 steps and also approximately at its $4^{th}$ trial the robot learns the place of the nest and deposits the food there. The ultimate goal of this thesis is to investigate the high-order process, goal-directed behaviour, and to utilize the reinforcement learning to determine the choices and using a simpler model of cortico-striato-thalamic circuit for action selection. The contribution of this thesis is to focus on bifurcation analysis of the dynamical system proposed for goal-directed behaviour. Based on this bifurcation analysis, we investigated the updating of action selections during reinforcement learning, and explain how this updating effects the dynamic systems behaviour. So an explanation of Basal Ganglia circuit for action selection is given, and these results are implemented on a mobile robot to solve a foraging task.
Yüksek Lisans
M.Sc.
Databáze: OpenAIRE