Zobrazeno 1 - 3
of 3
pro vyhledávání: '"Cho, Youngmock"'
Mixture-of-Experts (MoE) large language models (LLM) have memory requirements that often exceed the GPU memory capacity, requiring costly parameter movement from secondary memories to the GPU for expert computation. In this work, we present Mixture o
Externí odkaz:
http://arxiv.org/abs/2405.18832
Akademický článek
Tento výsledek nelze pro nepřihlášené uživatele zobrazit.
K zobrazení výsledku je třeba se přihlásit.
K zobrazení výsledku je třeba se přihlásit.
Publikováno v:
Circuits and Systems I: Regular Papers, IEEE Transactions on; 2024, Vol. 71 Issue: 3 p1158-1171, 14p