Výsledky vyhledávání

Report

Scaling Smart: Accelerating Large Language Model Pre-training with Small Model Initialization

Autor: Samragh, Mohammad, Mirzadeh, Iman, Vahid, Keivan Alizadeh, Faghri, Fartash, Cho, Minsik, Nabi, Moin, Naik, Devang, Farajtabar, Mehrdad

The pre-training phase of language models often begins with randomly initialized parameters. With the current trends in scaling models, training their large number of parameters can be extremely slow and costly. In contrast, small language models are

Externí odkaz: http://arxiv.org/abs/2409.12903

Zobrazit plný text záznamu

Report

MUSCLE: A Model Update Strategy for Compatible LLM Evolution

Autor: Echterhoff, Jessica, Faghri, Fartash, Vemulapalli, Raviteja, Hu, Ting-Yao, Li, Chun-Liang, Tuzel, Oncel, Pouransari, Hadi

Large Language Models (LLMs) are regularly updated to enhance performance, typically through changes in data or architecture. Within the update process, developers often prioritize improving overall performance metrics, paying less attention to maint

Externí odkaz: http://arxiv.org/abs/2407.09435

Zobrazit plný text záznamu

Report

DataComp-LM: In search of the next generation of training sets for language models

Autor: Li, Jeffrey, Fang, Alex, Smyrnis, Georgios, Ivgi, Maor, Jordan, Matt, Gadre, Samir, Bansal, Hritik, Guha, Etash, Keh, Sedrick, Arora, Kushal, Garg, Saurabh, Xin, Rui, Muennighoff, Niklas, Heckel, Reinhard, Mercat, Jean, Chen, Mayee, Gururangan, Suchin, Wortsman, Mitchell, Albalak, Alon, Bitton, Yonatan, Nezhurina, Marianna, Abbas, Amro, Hsieh, Cheng-Yu, Ghosh, Dhruba, Gardner, Josh, Kilian, Maciej, Zhang, Hanlin, Shao, Rulin, Pratt, Sarah, Sanyal, Sunny, Ilharco, Gabriel, Daras, Giannis, Marathe, Kalyani, Gokaslan, Aaron, Zhang, Jieyu, Chandu, Khyathi, Nguyen, Thao, Vasiljevic, Igor, Kakade, Sham, Song, Shuran, Sanghavi, Sujay, Faghri, Fartash, Oh, Sewoong, Zettlemoyer, Luke, Lo, Kyle, El-Nouby, Alaaeldin, Pouransari, Hadi, Toshev, Alexander, Wang, Stephanie, Groeneveld, Dirk, Soldaini, Luca, Koh, Pang Wei, Jitsev, Jenia, Kollar, Thomas, Dimakis, Alexandros G., Carmon, Yair, Dave, Achal, Schmidt, Ludwig, Shankar, Vaishaal

We introduce DataComp for Language Models (DCLM), a testbed for controlled dataset experiments with the goal of improving language models. As part of DCLM, we provide a standardized corpus of 240T tokens extracted from Common Crawl, effective pretrai

Externí odkaz: http://arxiv.org/abs/2406.11794

Zobrazit plný text záznamu

Report

CLIP with Quality Captions: A Strong Pretraining for Vision Tasks

Autor: Vasu, Pavan Kumar Anasosalu, Pouransari, Hadi, Faghri, Fartash, Tuzel, Oncel

CLIP models perform remarkably well on zero-shot classification and retrieval tasks. But recent studies have shown that learnt representations in CLIP are not well suited for dense prediction tasks like object detection, semantic segmentation or dept

Externí odkaz: http://arxiv.org/abs/2405.08911

Zobrazit plný text záznamu

Report

CatLIP: CLIP-level Visual Recognition Accuracy with 2.7x Faster Pre-training on Web-scale Image-Text Data

Autor: Mehta, Sachin, Horton, Maxwell, Faghri, Fartash, Sekhavat, Mohammad Hossein, Najibi, Mahyar, Farajtabar, Mehrdad, Tuzel, Oncel, Rastegari, Mohammad

Contrastive learning has emerged as a transformative method for learning effective visual representations through the alignment of image and text embeddings. However, pairwise similarity computation in contrastive loss between image and text pairs po

Externí odkaz: http://arxiv.org/abs/2404.15653

Zobrazit plný text záznamu

Report

Weight subcloning: direct initialization of transformers using larger pretrained ones

Autor: Samragh, Mohammad, Farajtabar, Mehrdad, Mehta, Sachin, Vemulapalli, Raviteja, Faghri, Fartash, Naik, Devang, Tuzel, Oncel, Rastegari, Mohammad

Training large transformer models from scratch for a target task requires lots of data and is computationally demanding. The usual practice of transfer learning overcomes this challenge by initializing the model with weights of a pretrained model of

Externí odkaz: http://arxiv.org/abs/2312.09299

Zobrazit plný text záznamu

Report

Knowledge Transfer from Vision Foundation Models for Efficient Training of Small Task-specific Models

Autor: Vemulapalli, Raviteja, Pouransari, Hadi, Faghri, Fartash, Mehta, Sachin, Farajtabar, Mehrdad, Rastegari, Mohammad, Tuzel, Oncel

Vision Foundation Models (VFMs) pretrained on massive datasets exhibit impressive performance on various downstream tasks, especially with limited labeled target data. However, due to their high inference compute cost, these models cannot be deployed

Externí odkaz: http://arxiv.org/abs/2311.18237

Zobrazit plný text záznamu

Report

MobileCLIP: Fast Image-Text Models through Multi-Modal Reinforced Training

Autor: Vasu, Pavan Kumar Anasosalu, Pouransari, Hadi, Faghri, Fartash, Vemulapalli, Raviteja, Tuzel, Oncel

Contrastive pretraining of image-text foundation models, such as CLIP, demonstrated excellent zero-shot performance and improved robustness on a wide range of downstream tasks. However, these models utilize large transformer-based encoders with signi

Externí odkaz: http://arxiv.org/abs/2311.17049

Zobrazit plný text záznamu

Report

TiC-CLIP: Continual Training of CLIP Models

Autor: Garg, Saurabh, Farajtabar, Mehrdad, Pouransari, Hadi, Vemulapalli, Raviteja, Mehta, Sachin, Tuzel, Oncel, Shankar, Vaishaal, Faghri, Fartash

Keeping large foundation models up to date on latest data is inherently expensive. To avoid the prohibitive costs of constantly retraining, it is imperative to continually train these models. This problem is exacerbated by the lack of any large scale

Externí odkaz: http://arxiv.org/abs/2310.16226

Zobrazit plný text záznamu

Report

SAM-CLIP: Merging Vision Foundation Models towards Semantic and Spatial Understanding

Autor: Wang, Haoxiang, Vasu, Pavan Kumar Anasosalu, Faghri, Fartash, Vemulapalli, Raviteja, Farajtabar, Mehrdad, Mehta, Sachin, Rastegari, Mohammad, Tuzel, Oncel, Pouransari, Hadi

The landscape of publicly available vision foundation models (VFMs), such as CLIP and Segment Anything Model (SAM), is expanding rapidly. VFMs are endowed with distinct capabilities stemming from their pre-training objectives. For instance, CLIP exce

Externí odkaz: http://arxiv.org/abs/2310.15308

Zobrazit plný text záznamu

Vyhledávací nástroje:

Upřesnit hledání