Zobrazeno 1 - 2
of 2
pro vyhledávání: '"Xue, Jinze"'
Training stability of large language models(LLMs) is an important research topic. Reproducing training instabilities can be costly, so we use a small language model with 830M parameters and experiment with higher learning rates to force models to div
Externí odkaz:
http://arxiv.org/abs/2410.16682
Akademický článek
Tento výsledek nelze pro nepřihlášené uživatele zobrazit.
K zobrazení výsledku je třeba se přihlásit.
K zobrazení výsledku je třeba se přihlásit.