Výsledky vyhledávání

Report

CodePMP: Scalable Preference Model Pretraining for Large Language Model Reasoning

Autor: Yu, Huimu, Wu, Xing, Yin, Weidong, Zhang, Debing, Hu, Songlin

Large language models (LLMs) have made significant progress in natural language understanding and generation, driven by scalable pretraining and advanced finetuning. However, enhancing reasoning abilities in LLMs, particularly via reinforcement learn

Externí odkaz: http://arxiv.org/abs/2410.02229

Zobrazit plný text záznamu

Vyhledávací nástroje:

Upřesnit hledání