Zobrazeno 1 - 10
of 32
pro vyhledávání: '"Xu, Bufan"'
Reinforcement Learning from Human Feedback (RLHF) has been proven to be an effective method for preference alignment of large language models (LLMs) and is widely used in the post-training process of LLMs. However, RLHF struggles with handling multip
Externí odkaz:
http://arxiv.org/abs/2411.01245
Publikováno v:
In Comparative Biochemistry and Physiology, Part C January 2025 287
Autor:
Xu, Bufan, Zhang, Anyu, Zheng, Yajun, Wang, Hui, Zheng, Xinyu, Jin, Ziqing, Liu, Danhong, Wang, Nan, Kan, Yu
Publikováno v:
In Food Chemistry 15 August 2024 449
Publikováno v:
In Science of the Total Environment 20 February 2024 912
Akademický článek
Tento výsledek nelze pro nepřihlášené uživatele zobrazit.
K zobrazení výsledku je třeba se přihlásit.
K zobrazení výsledku je třeba se přihlásit.
Akademický článek
Tento výsledek nelze pro nepřihlášené uživatele zobrazit.
K zobrazení výsledku je třeba se přihlásit.
K zobrazení výsledku je třeba se přihlásit.
Akademický článek
Tento výsledek nelze pro nepřihlášené uživatele zobrazit.
K zobrazení výsledku je třeba se přihlásit.
K zobrazení výsledku je třeba se přihlásit.
Autor:
Zheng, Yajun, Xu, Bufan, Shi, Panqi, Tian, Hailong, Li, Yan, Wang, Xueying, Wu, Song, Liang, Pengfei
Publikováno v:
In Food Chemistry 30 January 2022 368
Akademický článek
Tento výsledek nelze pro nepřihlášené uživatele zobrazit.
K zobrazení výsledku je třeba se přihlásit.
K zobrazení výsledku je třeba se přihlásit.
Akademický článek
Tento výsledek nelze pro nepřihlášené uživatele zobrazit.
K zobrazení výsledku je třeba se přihlásit.
K zobrazení výsledku je třeba se přihlásit.