Zobrazeno 1 - 10
of 5 000 268
pro vyhledávání: '"An JL"'
Serving LLMs requires substantial memory due to the storage requirements of Key-Value (KV) embeddings in the KV cache, which grows with sequence length. An effective approach to compress KV cache is quantization. However, traditional quantization met
Externí odkaz:
http://arxiv.org/abs/2406.03482
Akademický článek
Tento výsledek nelze pro nepřihlášené uživatele zobrazit.
K zobrazení výsledku je třeba se přihlásit.
K zobrazení výsledku je třeba se přihlásit.
Akademický článek
Tento výsledek nelze pro nepřihlášené uživatele zobrazit.
K zobrazení výsledku je třeba se přihlásit.
K zobrazení výsledku je třeba se přihlásit.
Akademický článek
Tento výsledek nelze pro nepřihlášené uživatele zobrazit.
K zobrazení výsledku je třeba se přihlásit.
K zobrazení výsledku je třeba se přihlásit.
Publikováno v:
In Microelectronics Journal July 2024 149
Publikováno v:
In Expert Systems With Applications 1 December 2024 255 Part B
Akademický článek
Tento výsledek nelze pro nepřihlášené uživatele zobrazit.
K zobrazení výsledku je třeba se přihlásit.
K zobrazení výsledku je třeba se přihlásit.
Publikováno v:
In Microelectronics Journal November 2023 141
Autor:
Kumar, Ajay a, ∗, Gupta, Neha b, Jain, Aditya c, Gupta, Rajeev d, Choudhary, Bharat e, Kumar, Kaushal f, Goyal, Amit Kumar g, Massoud, Yehia g
Publikováno v:
In Memories - Materials, Devices, Circuits and Systems December 2023 6
Dimensionality reduction-based dictionary learning methods in the literature have often used iterative random projections. The dimensionality of such a random projection matrix is a random number that might not lead to a separable subspace structure
Externí odkaz:
http://arxiv.org/abs/2308.13991