Mois dans 4 papiers (février 2025)

 Mois dans 4 papiers (février 2025)


Auteur (s): Ala Falaki, PhD

Publié à l’origine sur Vers l’IA.

Cette histoire réservée aux membres est sur nous. Mettre à niveau pour accéder à tout le milieu.

Explorer comment les stratégies de mise en cache, la durée du contexte, l’estimation de l’incertitude et les représentations conceptuelles sont de remodeler la récupération des connaissances dans les modèles de langues.

Cette série de messages est conçue pour vous apporter les dernières découvertes et développements dans le PNL champ. Je vais plonger dans quatre articles de recherche importants chaque mois, offrant un résumé complet. Assurez-vous de visiter mon blog régulièrement ou abonnez-vous à mon bulletin pour les mises à jour mensuelles. Plongeons-nous!

📝 Modèles de grands concepts: modélisation du langage dans un espace de représentation de phrase (papier) (code)

Cet article présente de grands modèles de concepts (LCM) qui traitent des phrases entières à la fois (au lieu de jetons), comme la façon dont les humains pensent naturellement dans des idées complètes plutôt que des mots individuels. Ils ont utilisé le modèle de sonar encodeur comme composants congelés, avec le modèle LCM au milieu. Ainsi, tout d’abord, le modèle LCM reçoit la phrase en train de s’incliner de l’encodeur du sonar. Ensuite, LCM génère la nouvelle intégration, qui sera transmise au décodeur de Sonar pour la génération.

L’architecture sélectionnée pour LCM a été nommée «Two-Tower», qui se compose de deux composants: Contextualizer et Denoise Bureau, qui sont implémentés à l’aide de couches de transformateur. Ils ont expérimenté différentes architectures, mais les deux points se sont révélés plus efficaces. Cette approche offre de solides performances entre les langues… Lisez le blog complet gratuitement sur Medium.

Publié via Vers l’IA



Source link

Related post