Popis: |
Considerem una situació on experiments de costos molt diferents poden ser realitzats per obtenir diverses propietats d'una entitat i una recompensa és obtinguda per confirmar que la entitat satisfà una propiteat. En aquest cas, de vegades és beneficiós realitzar un experiment barat per obtenir informació parcial sobre la propietat desitjada, si el corresponent experiment és més car. El nostre objectiu és entrenar una xarxa neuronal que pot incorporar informació nova dels experiments per donar millors prediccions, i després utilitzar aquesta xarxa neuronal en un planificador que determinarà quina sequència d'experiments maximitza el valor esperat. En aquest projecte, les entitats seran molècules. Introduïm el concepte de meta-aprentatge transposat, que és semblant al meta-aprenentatge però volem crear un model que, per entrades no vistes, pot generalitzar a tasques no vistes després de veure només unes poques tasques d'exemple. Considerem un enfocament basat en arquitectura i un altre en optimització i descobrim que el darrer dóna millor precisió. Utilitzem una tècnica de meta-aprentatge anomenada CNGrad per meta-entrenar en diverses entrades en paral·lel. En el planificador, realitzem cerca en arbre per trobar la millor decisió per cada conjunt de propietats ja conegudes. Analitzem best-first search amb diverses heurístiques i un planificador basat en AlphaZero amb la intenció d'entrenar el millor mètode d'exploració de l'arbre. De les heurístiques que provem, la millor és explorar les combinacions d'experiments amb el menor cost total primer. Malgrat que el planificador d'AlphaZero millora el rendiment respecte a no planificar, el seu rendiment no és tan bo com best-first search. Aquest treball mostra la potencial utilitat d'incorporar informació nova per obtenir millors prediccions encara que aquesta informació addicional incorri un cost, i també planteja un marc de meta-aprenentatge nou que pot ser utilitzat en altres problemes. Consideramos una situación en la cual tenemos experimentos de costes muy distintos que pueden ser realizados para obtener diversas propiedades de una entidad y recompensa es obtenida por confirmar que la entidad satisface una propiedad. En este caso, a veces es beneficioso realizar un experimento barato para obtener información parcial sobre la propiedad deseada, si el experimento correspondiente es más caro. Nuestro objetivo es entrenar una red neuronal que puede incorporar información nueva de los experimentos para producir mejores predicciones, y luego utilitzar esa red en un planificador que determinará qué secuencia de experimentos maximiza el valor esperado. En este proyecto, las entidades serán moléculas. Introducimos el concepto de meta-aprendizaje transpuesto, que es similar al meta-aprendizaje pero con el objetivo de crear un modelo que, para entradas no vistas, generaliza a tareas no vistas tras ver unas pocas tareas de ejemplo. Consideramos un enfoque basado en arquitectura y otro en optimización y descubrimos que el segundo tiene mejor precisión. Usamos una técnica de meta-aprendizaje llamada CNGrad para meta-entrenar sobre varias entradas en paralelo. En el planificador, realizamos búsqueda en árbol para encontrar la mejor regla para cada conjunto de propiedades ya conocidas. Analizamos best-first search con varias heurísticas y un planificador basado en AlphaZero con la intención de entrenar el mejor método de exploración en el árbol. De las heurísticas que probamos, la mejor es explorar las combinaciones de experimentos con el coste total más bajo primero. Pese a que el planner de AlphaZero mejora su rendimiento comparado con no planear, su rendimiento no es tan bueno como best-first search. Este trabajo muestra la potencial utilidad de incorporar información nueva para obtener mejores predicciones incluso si esta información adicional incurre un coste, y planteamos un marco de meta-learning nuevo que puede ser utilizado en otros problemas. We consider a setting where experiments of widely different costs can be performed to obtain several properties of an entity and a reward is obtained for confirming that the entity does satisfy a property. In that case, it is sometimes beneficial to perform a cheap experiment in order to obtain partial information on the desired property, if corresponding experiment is much costlier. Our goal is to train a neural network that can incorporate new information from experiments in order to output better predictions, and then use this neural network in a planner that will determine what sequence of experiments will maximize the expected value. In this project, the entities will be molecules. We introduce the concept of transposed meta-learning, which is similar to meta-learning but instead we aim to create a model that, for unseen inputs, can generalize to unseen tasks after seeing just a few example tasks. We consider an architecture-based approach and an optimization-based approach and find that the latter yields better accuracy. We employ a meta-learning technique called CNGrad to meta-train on several inputs in parallel. In the planner, we perform tree search to find the best policy for each set of already known properties. We consider best-first search with several hard-coded heuristics as well as a planner inspired by AlphaZero with the intention that it would learn the best tree exploration method. Out of the heuristics that we try, the best one is exploring the combinations of experiments with the lowest total cost first. Although the AlphaZero planner improves its performance compared to not doing planning by learning, its performance is not as good as best-first search. This work shows the potential usefulness of incorporating new information to obtain better predictions even if that additional information comes at a cost, and it also provides a novel meta-learning framework that can be used in other problems aside from this one. Outgoing |