Výsledky vyhledávání - "Choi, Heewoong"

Report

Listwise Reward Estimation for Offline Preference-based Reinforcement Learning

Autor: Choi, Heewoong, Jung, Sangwon, Ahn, Hongjoon, Moon, Taesup

In Reinforcement Learning (RL), designing precise reward functions remains to be a challenge, particularly when aligning with human intent. Preference-based RL (PbRL) was introduced to address this problem by learning reward models from human feedbac

Externí odkaz: http://arxiv.org/abs/2408.04190

Zobrazit plný text záznamu

Vyhledávací nástroje:

Upřesnit hledání