Zobrazeno 1 - 2
of 2
pro vyhledávání: '"Alcázar, Cristóbal"'
Fine-tuning foundation models via reinforcement learning (RL) has proven promising for aligning to downstream objectives. In the case of diffusion models (DMs), though RL training improves alignment from early timesteps, critical issues such as train
Externí odkaz:
http://arxiv.org/abs/2410.08315
Akademický článek
Tento výsledek nelze pro nepřihlášené uživatele zobrazit.
K zobrazení výsledku je třeba se přihlásit.
K zobrazení výsledku je třeba se přihlásit.