Surpasser et stimuler les grands modèles de langage multi-tâches avec un petit buteur

 Surpasser et stimuler les grands modèles de langage multi-tâches avec un petit buteur


En raison de la complexité de la compréhension et de la résolution de diverses tâches uniquement en utilisant des instructions, la taille des LLM multi-tâches s’étend généralement de plusieurs milliards de paramètres à des centaines de milliards (par exemple, Flan-11b, T0-11B et Opt-IML-175B). En conséquence, l’exploitation de tels modèles importants pose des défis importants car ils exigent une puissance de calcul considérable et imposent des exigences substantielles aux capacités de mémoire des GPU et des TPU, ce qui rend leur formation et leur inférence coûteuses et inefficaces. Un stockage approfondi est nécessaire pour maintenir une copie LLM unique pour chaque tâche en aval. De plus, les LLMs multi-tâches les plus puissants (par exemple, Flan-Palm-540B) sont fermés, ce qui les rend impossibles à s’adapter. Cependant, dans les applications pratiques, exploiter un seul LLM multi-tâches pour gérer toutes les tâches imaginables d’une manière nulle reste difficile, en particulier lorsqu’il s’agit de tâches complexes, de tâches personnalisées et de celles qui ne peuvent pas être définies succinctement à l’aide d’instructions. D’un autre côté, la taille des données d’entraînement en aval est généralement insuffisante pour former un modèle sans incorporer de riches connaissances antérieures. Par conséquent, il est longtemps souhaité d’adapter les LLM avec une supervision en aval tout en contournant les problèmes de stockage, de mémoire et d’accès.

Certain réglage économe en paramètres Stratégies, y compris réglage rapide et adaptateursdiminuent considérablement les exigences de stockage, mais ils effectuent toujours une rétro-propagation via les paramètres LLM pendant le processus de réglage, gardant ainsi leur demandes de mémoire élevée. De plus, certains apprentissage en contexte Techniques Contrut le réglage des paramètres en intégrant un nombre limité d’exemples supervisés dans l’instruction. Cependant, ces techniques sont limitées par la longueur d’entrée maximale du modèle, qui ne permet que quelques échantillons pour guider la résolution des tâches.

Dans « Cappy: surperformant et stimulant de grandes LM multi-tâches avec un petit buteur», Présenté à Neirips 2023nous proposons une nouvelle approche qui améliore les performances et l’efficacité des LLM multi-tâches. Nous introduisons un marqueur pré-formé léger, Cappy, basé sur une pré-formation continue au-dessus de Roberta avec seulement 360 millions de paramètres. Cappy prend une instruction et une réponse candidate en entrée, et produit un score entre 0 et 1, indiquant une exactitude estimée de la réponse par rapport à l’instruction. Cappy fonctionne indépendamment sur les tâches de classification ou sert de composant auxiliaire pour les LLM, augmentant leurs performances. De plus, Cappy permet efficacement la supervision en aval sans nécessiter de financement, ce qui évite la nécessité de rétro-propagation via les paramètres LLM et réduit les exigences de la mémoire. Enfin, l’adaptation avec Cappy ne nécessite pas d’accès aux paramètres LLM car il est compatible avec les LLM multi-tâches à source fermée, telles que celles accessibles via webapis.



Source link

Related post