10 concepts clés du modèle grand langage expliqués

 10 concepts clés du modèle grand langage expliqués



Image de l’auteur | Idéogramme

Introduction

Modèles de grande langue ont révolutionné l’ensemble du paysage de l’intelligence artificielle au cours des dernières années, marquant le début d’une nouvelle ère dans l’histoire de l’IA. Habituellement mentionnés par leur acronyme LLMS, ils ont transformé la façon dont nous communiquons avec les machines, que ce soit pour récupérer des informations, poser des questions ou générer une variété de contenu en langage humain.

Alors que les LLM imprègnent en outre notre vie quotidienne et professionnelle, il est primordial de comprendre les concepts et les fondations qui les entourent, à la fois architecturale et en termes d’utilisation et d’applications pratiques.

Dans cet article, nous explorons 10 termes de modèle de grande langue qui sont essentiels pour comprendre ces formidables systèmes d’IA.

1. Architecture du transformateur

Définition: Le transformateur est le fondement des modèles de grande langue. Il s’agit d’une architecture de réseau neuronale profonde élevée à son exposant le plus élevé, consistant en une variété de composants et de couches tels que les réseaux de position et d’auto-agence d’auto-assistance en position de position qui permettent ensemble un traitement parallèle efficace et une représentation contextuelle des séquences d’entrée.

Pourquoi c’est la clé: Grâce à l’architecture du transformateur, il est devenu possible de comprendre les entrées de langage complexes et de générer des sorties linguistiques à un niveau sans précédent, surmontant les limites des solutions de traitement du langage naturel précédentes de pointe.

2. Mécanisme d’attention

Définition: Envisagé à l’origine pour les tâches de traduction du langage dans les réseaux de neurones récurrents, les mécanismes d’attention analysent la pertinence de chaque élément d’une séquence concernant les éléments dans une autre séquence, à la fois de longueur et de complexité variables. Bien que le mécanisme d’attention de base ne fasse généralement pas partie des architectures de transformateurs sous-jacentes aux LLM, ils ont jeté les fondements d’approches améliorées (comme nous en discuterons sous peu).

Pourquoi c’est la clé: Les mécanismes d’attention sont essentiels pour aligner les séquences source et cible de texte dans des tâches telles que la traduction et la résumé, transformant la compréhension du langage et les processus de génération en tâches hautement contextuelles.

3. Aménagement de soi

Définition: S’il existe un type de composant au sein de l’architecture du transformateur qui est principalement responsable du succès de LLMS, c’est-à-dire le mécanisme d’auto-altération. L’auto-attention surmonte les limites des mécanismes d’attention conventionnels comme le traitement séquentiel à long terme en permettant à chaque mot – ou jeton, plus précisément – dans une séquence de s’occuper de tous les autres mots (jetons) simultanément, quelle que soit leur position.

Pourquoi c’est la clé: Prêter attention aux dépendances, aux modèles et aux interrelations entre les éléments de la même séquence est incroyablement utile pour extraire un sens profond et un contexte de la séquence d’entrée en cours, ainsi que la séquence cible générée en réponse – permettant ainsi des sorties plus cohérentes et contextuelles.

4. Encodeur et décodeur

Définition: L’architecture du transformateur classique est à peu près divisée en deux composantes ou moitiés principales: l’encodeur et le décodeur. L’encodeur est responsable du traitement et du codage de la séquence d’entrée dans une représentation profondément contextualisée, tandis que le décodeur se concentre sur la génération de la séquence de sortie étape par étape en utilisant les deux parties générées précédemment de la sortie et de la représentation résultante de l’encodeur. Les deux pièces sont interconnectées, de sorte que le décodeur reçoit les résultats traités de l’encodeur (appelés états cachés) en entrée. De plus, le codeur et les entrailles du décodeur sont « reproduits » sous la forme de plusieurs couches d’encodeur et des couches de décodeur, respectivement: ce niveau de profondeur aide le modèle à apprendre des caractéristiques plus abstraites et nuancées des séquences d’entrée et de sortie.

Pourquoi c’est la clé: La combinaison d’un encodeur et d’un décodeur, chacune avec ses propres composantes d’auto-agencement, est la clé pour équilibrer la compréhension des entrées avec la génération de sortie dans un LLM.

5. Pré-formation

Définition: Tout comme les fondements d’une maison à partir de zéro, la pré-formation est le processus de formation d’un LLM pour la première fois, c’est-à-dire progressivement en apprenant progressivement tous ses paramètres ou poids de modèle. L’ampleur de ces modèles est telle qu’ils peuvent prendre jusqu’à des milliards de paramètres. Par conséquent, la pré-formation est un processus intrinsèquement coûteux qui prend des jours à des semaines à terminer et nécessite des corpus massifs et diversifiés de données de texte.

Pourquoi c’est la clé: La pré-formation est vitale pour construire un LLM qui peut comprendre et assimiler les modèles de langue générale et la sémantique à travers un large éventail de sujets.

6. Fonction

Définition: Contrairement à la pré-formation, le réglage fin est le processus de prise d’un LLM déjà pré-formé et de le former à nouveau sur un ensemble d’exemples de données relativement plus petit et plus spécifique au domaine, rendant ainsi le modèle spécialisé dans un domaine ou une tâche spécifique. Bien qu’il soit encore coûteux en calcul, le réglage fin est moins coûteux que la pré-formation d’un modèle à partir de zéro, et il implique souvent de mettre à jour les poids du modèle uniquement dans des couches spécifiques de l’architecture plutôt que de mettre à jour l’ensemble des paramètres à travers l’architecture du modèle.

Pourquoi c’est la clé: Le fait qu’un LLM se spécialise dans les tâches très concrètes et les domaines d’application comme l’analyse juridique, le diagnostic médical ou le support client est important car les modèles pré-formés à usage général peuvent échouer dans la précision spécifique au domaine, la terminologie et les exigences de conformité.

7. Embeddings

Définition: Les machines et les modèles d’IA ne comprennent pas vraiment le langage, mais juste des chiffres. Cela s’applique également aux LLM, donc même si nous parlons généralement de modèles qui « comprennent et génèrent le langage », ce qu’ils font est de gérer une représentation numérique d’un tel langage qui maintient ses propriétés clés en grande partie intactes: ces représentations numériques (vectorielles, plus précises) sont ce que nous appelons les embrassages.

Pourquoi c’est la clé: Cartographier les séquences de texte d’entrée dans les représentations d’intégration permet aux LLM d’effectuer le raisonnement, l’analyse de similitude et la généralisation des données entre les contextes, le tout sans perdre les principales propriétés du texte d’origine; Par conséquent, les réponses brutes générées par le modèle peuvent être mappées à un langage humain sémantiquement cohérent et approprié.

8. Ingénierie rapide

Définition: Les utilisateurs finaux de LLMS devraient se familiariser avec les meilleures pratiques pour une utilisation optimale de ces modèles pour atteindre leurs objectifs, et l’ingénierie rapide se distingue comme une approche stratégique et pratique à cette fin. L’ingénierie rapide englobe un ensemble de directives et de techniques pour concevoir des invites utilisateur efficaces qui guident le modèle vers la production de réponses utiles, précises et axées sur les objectifs.

Pourquoi c’est la clé: Souvent, l’obtention de sorties LLM de haute qualité, précises et pertinentes est en grande partie une question d’apprendre à écrire des invites de haute qualité qui sont claires, spécifiques et structurées pour aligner les capacités et les forces du LLM, par exemple, en transformant une vague question d’utilisateur en une réponse précise et significative.

9. Apprentissage dans le contexte

Définition: Également appelé apprentissage à quelques coups, il s’agit d’une méthode pour enseigner aux LLMS à effectuer de nouvelles tâches fondées sur la fourniture d’exemples de résultats et d’instructions souhaités directement dans l’invite, sans recueillir ni affiner le modèle. Il peut être considéré comme une forme spécialisée d’ingénierie rapide, car il exploite pleinement les connaissances acquises par le modèle pendant la pré-formation pour extraire les modèles et s’adapter aux nouvelles tâches à la volée.

Pourquoi c’est la clé: L’apprentissage dans le contexte a été prouvé comme une approche efficace pour apprendre de manière flexible et efficiente à résoudre de nouvelles tâches en fonction des exemples.

10. Compte de paramètres

Définition: La taille et la complexité d’un LLM sont généralement mesurées par plusieurs facteurs, le nombre de paramètres étant l’un d’entre eux. Des noms de modèles bien connus comme GPT-3 (avec des paramètres 175B) et LLAMA-2 (avec jusqu’à 70B paramètres) reflètent clairement l’importance et la signification du nombre de paramètres dans les capacités du langage d’échelle et l’expressivité d’un LLM dans la génération de langage. Le nombre de paramètres est important lorsqu’il s’agit de mesurer les capacités d’un LLM, mais d’autres aspects tels que la quantité et la qualité des données de formation, la conception d’architecture et les approches de réglage fin utilisées sont également importantes.

Pourquoi c’est la clé: Le nombre de paramètres est déterminant non seulement pour définir la capacité du modèle à « stocker » et à gérer les connaissances linguistiques, mais également à estimer ses performances sur les tâches de raisonnement et de génération difficiles, en particulier lorsqu’ils impliquent des dialogues multi-phases entre l’utilisateur et le modèle.

Emballage

Cet article a exploré l’importance de dix termes clés entourant les modèles de gros langues: l’attention principale de l’attention dans l’ensemble du paysage de l’IA, en raison des réalisations remarquables réalisées par ces modèles au cours des dernières années. Familiariser ces concepts vous place dans une position avantageuse pour rester au courant des nouvelles tendances et développements dans le paysage LLM en évolution rapide.

Iván Palomares Carrascosa est un leader, écrivain, conférencier et conseiller dans l’IA, l’apprentissage automatique, le Deep Learning & LLMS. Il entraîne et guide les autres à exploiter l’IA dans le monde réel.



Source link

Related post