Výsledky vyhledávání

Report

CoSafe: Evaluating Large Language Model Safety in Multi-Turn Dialogue Coreference

Autor: Yu, Erxin, Li, Jing, Liao, Ming, Wang, Siqi, Gao, Zuchen, Mi, Fei, Hong, Lanqing

As large language models (LLMs) constantly evolve, ensuring their safety remains a critical research problem. Previous red-teaming approaches for LLM safety have primarily focused on single prompt attacks or goal hijacking. To the best of our knowled

Externí odkaz: http://arxiv.org/abs/2406.17626

Zobrazit plný text záznamu

Vyhledávací nástroje:

Upřesnit hledání