Výsledky vyhledávání - "Chen, Yinzhuo"

Report

PMoL: Parameter Efficient MoE for Preference Mixing of LLM Alignment

Autor: Liu, Dongxu, Xu, Bing, Chen, Yinzhuo, Xu, Bufan, Lu, Wenpeng, Yang, Muyun, Zhao, Tiejun

Reinforcement Learning from Human Feedback (RLHF) has been proven to be an effective method for preference alignment of large language models (LLMs) and is widely used in the post-training process of LLMs. However, RLHF struggles with handling multip

Externí odkaz: http://arxiv.org/abs/2411.01245

Zobrazit plný text záznamu

Vyhledávací nástroje:

Upřesnit hledání