Apprentissage de sous-espaces de préfixes

Autor: Falissard, Louis, Guigue, Vincent, Soulier, Laure
Přispěvatelé: Institut des Systèmes Intelligents et de Robotique (ISIR), Sorbonne Université (SU)-Centre National de la Recherche Scientifique (CNRS), Laboratoire Interdisciplinaire des Sciences du Numérique (LISN), Institut National de Recherche en Informatique et en Automatique (Inria)-CentraleSupélec-Université Paris-Saclay-Centre National de la Recherche Scientifique (CNRS), Mathématiques et Informatique Appliquées (MIA Paris-Saclay), AgroParisTech-Université Paris-Saclay-Institut National de Recherche pour l’Agriculture, l’Alimentation et l’Environnement (INRAE), Zargayouna, Haïfa
Jazyk: francouzština
Rok vydání: 2023
Předmět:
Zdroj: Actes de CORIA-TALN 2023. Actes de la 18e Conférence en Recherche d'Information et Applications (CORIA)
18e Conférence en Recherche d'Information et Applications--16e Rencontres Jeunes Chercheurs en RI--30e Conférence sur le Traitement Automatique des Langues Naturelles--25e Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues
18e Conférence en Recherche d'Information et Applications--16e Rencontres Jeunes Chercheurs en RI--30e Conférence sur le Traitement Automatique des Langues Naturelles--25e Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues, Jun 2023, Paris, France. pp.59-73
Popis: International audience; Cet article propose une nouvelle façon d'ajuster des modèles de langue en "Few-shot learning" se basant sur une méthode d'optimisation récemment introduite en vision informatique, l'apprentissage de sous-espaces de modèles. Cette méthode, permettant de trouver non pas un point minimum local de la fonction coût dans l'espace des paramètres du modèle, mais tout un simplexe associé à des valeurs basses, présente typiquement des capacités de généralisation supérieures aux solutions obtenues par ajustement traditionnel. L'adaptation de cette méthode aux gros modèles de langue n'est pas triviale mais son application aux méthodes d'ajustement dites "Parameter Efficient" est quant à elle relativement naturelle. On propose de plus une façon innovante d'utiliser le simplexe de solution étudié afin de revisiter la notion de guidage de l'ajustement d'un modèle par l'inférence d'une métrique de validation, problématique d'actualité en "few-shot learning". On montre finalement que ces différentes contributions centrées autour de l'ajustement de sous-espaces de modèles est empiriquement associée à un gain considérable en performances de généralisation sur les tâches de compréhension du langage du benchmark GLUE, dans un contexte de "few-shot learning".
Databáze: OpenAIRE