Výsledky vyhledávání

Report

FFN-SkipLLM: A Hidden Gem for Autoregressive Decoding with Adaptive Feed Forward Skipping

Autor: Jaiswal, Ajay, Hu, Bodun, Yin, Lu, Ro, Yeonju, Liu, Shiwei, Chen, Tianlong, Akella, Aditya

Autoregressive Large Language Models (e.g., LLaMa, GPTs) are omnipresent achieving remarkable success in language understanding and generation. However, such impressive capability typically comes with a substantial model size, which presents signific

Externí odkaz: http://arxiv.org/abs/2404.03865

Zobrazit plný text záznamu

Report

Q-Rater: Non-Convex Optimization for Post-Training Uniform Quantization

Autor: Kim, Byeongwook, Lee, Dongsoo, Ro, Yeonju, Jeon, Yongkweon, Kwon, Se Jung, Park, Baeseong, Oh, Daehwan

Various post-training uniform quantization methods have usually been studied based on convex optimization. As a result, most previous ones rely on the quantization error minimization and/or quadratic approximations. Such approaches are computationall

Externí odkaz: http://arxiv.org/abs/2105.01868

Zobrazit plný text záznamu

Vyhledávací nástroje:

Upřesnit hledání