Výsledky vyhledávání - "Yuan, Kaizhao"

Report

InverseCoder: Unleashing the Power of Instruction-Tuned Code LLMs with Inverse-Instruct

Autor: Wu, Yutong, Huang, Di, Shi, Wenxuan, Wang, Wei, Gao, Lingzhe, Liu, Shihao, Nan, Ziyuan, Yuan, Kaizhao, Zhang, Rui, Zhang, Xishan, Du, Zidong, Guo, Qi, Pu, Yewen, Yin, Dawei, Hu, Xing, Chen, Yunji

Recent advancements in open-source code large language models (LLMs) have demonstrated remarkable coding abilities by fine-tuning on the data generated from powerful closed-source LLMs such as GPT-3.5 and GPT-4 for instruction tuning. This paper expl

Externí odkaz: http://arxiv.org/abs/2407.05700

Zobrazit plný text záznamu

Report

Online Prototype Alignment for Few-shot Policy Transfer

Autor: Yi, Qi, Zhang, Rui, Peng, Shaohui, Guo, Jiaming, Gao, Yunkai, Yuan, Kaizhao, Chen, Ruizhi, Lan, Siming, Hu, Xing, Du, Zidong, Zhang, Xishan, Guo, Qi, Chen, Yunji

Domain adaptation in reinforcement learning (RL) mainly deals with the changes of observation when transferring the policy to a new environment. Many traditional approaches of domain adaptation in RL manage to learn a mapping function between the sou

Externí odkaz: http://arxiv.org/abs/2306.07307

Zobrazit plný text záznamu

Report

Eden: A Unified Environment Framework for Booming Reinforcement Learning Algorithms

Autor: Chen, Ruizhi, Wu, Xiaoyu, Pan, Yansong, Yuan, Kaizhao, Li, Ling, Ma, TianYun, Liang, JiYuan, Zhang, Rui, Wang, Kai, Zhang, Chen, Peng, Shaohui, Zhang, Xishan, Du, Zidong, Guo, Qi, Chen, Yunji

With AlphaGo defeats top human players, reinforcement learning(RL) algorithms have gradually become the code-base of building stronger artificial intelligence(AI). The RL algorithm design firstly needs to adapt to the specific environment, so the des

Externí odkaz: http://arxiv.org/abs/2109.01768

Zobrazit plný text záznamu

Vyhledávací nástroje:

Upřesnit hledání