Lai # 66: Théorie de l’information pour les personnes pressées




Auteur (s): Vers l’équipe éditoriale de l’IA
Publié à l’origine sur Vers l’IA.
Bonjour, les passionnés de l’IA! Cette semaine, je me dirige vers San Jose, en Californie, pour Nvidia GTC, qui se déroule du 17 au 21 mars. Je vais assister à de nombreuses discussions et je suis ravi de rencontrer certains d’entre vous là-bas. Si vous êtes là, n’hésitez pas à vous arrêter et à dire bonjour!
Maintenant, pour le numéro de cette semaine, nous avons un article très intéressant sur la théorie de l’information, l’exploration de l’auto-information, entropiecroix-entropieet KL Divergence – Ces concepts pont la théorie des probabilités avec des applications réelles. Nous plongeons également dans le défi des données déséquilibrées dans la détection des anomalies, introduisant une méthode qui exploite LLM Des intégres pour identifier les irrégularités subtiles – particulièrement utiles lorsque des techniques traditionnelles comme le suréchantillonnage ou le sous-échantillonnage ne sont pas abrégées.
De plus, nous avons des tutoriels pratiques sur le graphrag, la distillation des connaissances, le chiffon pour les systèmes de vérification et les collaborations plus passionnantes et les opportunités axées sur la communauté. Profitez de la lecture!
– Louis-François Bouchard, vers le co-fondateur de l’IA et chef de la communauté
Ce problème vous est soumis grâce à Nvidia GTC:
Nvidia GTC est de retour, et il s’annonce comme l’un des plus grands événements de l’IA de l’année! À partir de 17 au 21 mars à San Jose, CAGTC réunira les développeurs, les chercheurs et les chefs d’entreprise pour explorer les progrès de la pointe dans l’IA, l’informatique accélérée et la science des données.
Il y a un programme bondé, notamment:
- L’enlectricité du PDG de Nvidia Jensen Huang – couvrant les agents de l’IA, la robotique et l’avenir de l’informatique accélérée
- La montée des robots humanoïdes – explorant comment l’IA fait avancer la robotique
- AI et frontières informatiques avec Yann LeCun et Bill Dally – une plongée profonde dans l’endroit où l’IA se dirige
- IA industrielle et numérisation – Comment l’IA transforme les industries dans le monde physique
- Ateliers pratiques et laboratoires de formation – Sessions pratiques sur l’IA, GPU programmation, et plus
Rejoignez-nous à Nvidia GTC – L’événement AI de l’année!
📅 17-21 mars
📍 San Jose, CA et en ligne
Apprenez la section communautaire AI ensemble!
Article communautaire en vedette de The Discord
Hasshiloh_pendergraff a construit une plate-forme open source, Divrade, qui permet aux développeurs de contrôler et de former pleinement leurs modèles d’IA sans être lié à aucune API ou service externe. Le code est transparent et vous pouvez soumettre des améliorations pour l’examen de la communauté. Vous pouvez commencer à l’utiliser gratuitement ici et soutenir un autre membre de la communauté. Si vous avez des questions ou des commentaires, partagez-les dans le fil!
Sondage de l’IA de la semaine!
Étant donné que la majorité d’entre vous préfère construire à partir de zéro, je suis curieux de savoir comment vous avez abordé le processus, s’il existe des environnements qui fonctionnent particulièrement bien, Dites-moi dans le fil!
Opportunités de collaboration
La communauté de Discord Learn AI ensemble inonde d’opportunités de collaboration. Si vous êtes ravi de plonger dans une IA appliquée, voulez un partenaire d’étude ou même souhaitez trouver un partenaire pour votre projet de passion, Rejoignez le canal de collaboration! Gardez également un œil sur cette section – nous partageons des opportunités intéressantes chaque semaine!
1 et 1 Ayanb1827 construire un AI génératif Assistant «Second Brain» et recherche des collaborateurs. Si vous êtes dans des LLM ou des chiffons ou si vous voulez simplement apprendre et vous entraîner à construire des projets d’IA cool, Connectez-vous avec lui dans le fil!
2 Ivy_kaye est à la recherche de quelques personnes qui sont débutantes en IA pour étudier ensemble. C’est peut-être un bon point de départ si vous débutez également. La tendre la main dans le fil!
MEME de la semaine!
MEME partagé par Hitoriarchie
Section Tai organisée
Article de la semaine
Guide pratique pour distiller les grands modèles en petits modèles: une nouvelle approche avec une distillation étendue Par Shenggang Li
Cet article explore une approche pratique de la distillation des connaissances, en transférant les capacités des grands modèles à des capacités plus petites et plus efficaces. Il compare la distillation traditionnelle, qui se concentre sur l’imitation de la sortie finale, avec une distillation étape par étape, incorporant le processus de raisonnement du modèle enseignant. L’auteur introduit une méthode améliorée étape par étape qui stabilise l’apprentissage par une augmentation de la perte de justification progressive, la similitude du cosinus pour l’alignement du raisonnement et une régularisation de cohérence plus forte. La méthode améliorée aborde les limites de l’approche étape par étape d’origine, conduisant à une meilleure généralisation et à une précision de prédiction. Les expériences de code utilisant la régression logistique démontrent l’efficacité de ces techniques. L’auteur explique également comment ces améliorations peuvent être appliquées à des modèles de langues importants, améliorant l’interprétabilité et les performances. L’innovation clé est la perte de similitude en cosinus basée sur la marge pour la distillation de justification.
Nos articles à lire à lire
1 et 1 Exploration de Graphrag: récupération de connaissances plus intelligente avec NEO4J & LLMS Par Sridhar Sampath
L’article détaille Graphrag, une technique développée par Microsoft qui combine des graphiques de connaissances NEO4J avec des modèles de grands langues (LLM) pour améliorer la précision et le raisonnement de l’IA. Il aborde les limites des LLM traditionnelles, telles que les hallucinations et le contexte fragmenté, en utilisant une récupération structurée basée sur des graphiques avant de générer des réponses d’IA. L’auteur illustre les capacités de Graphrag en construisant un chatbot de graphique de connaissances de football, démontrant comment il améliore la compréhension, la précision et la transparence contextuelles. Le processus consiste à construire un graphique de connaissances NEO4J, à convertir les requêtes utilisateur en requêtes Cypher pour la récupération et à utiliser GPT pour formater les connaissances récupérées en réponses lisibles par l’homme. L’auteur compare GraphRag au chiffon traditionnel, mettant en évidence ses avantages dans la récupération factuelle, le raisonnement structuré, l’évolutivité et l’applicabilité agnostique du domaine.
2 Repenser le déséquilibre: LLM intégration pour détecter les irrégularités subtiles Par Elangoraj Thiruppandiaraj
Ce blog aborde le défi persistant des données déséquilibrées dans la détection des anomalies. Il introduit une méthode utilisant des incorporations LLM pour identifier les irrégularités subtiles, ce qui est particulièrement utile lorsque des techniques standard comme le suréchantillonnage ou le sous-échantillonnage ne sont pas courtes. Il explique comment la conversion des données en intégres permet de regrouper des événements similaires et de préserver les nuances souvent manquées par des méthodes traditionnelles. L’idée principale consiste à comparer de nouveaux points de données aux anomalies connues dans l’espace d’incorporation pour détecter des caractéristiques similaires. L’auteur discute également des défis tels que les exigences de calcul et les mises à jour du modèle, offrant des suggestions pratiques de mise en œuvre et des applications potentielles au-delà de la détection des anomalies, telles que la détection de fraude et les diagnostics de santé.
3 et 3 Construire des pipelines de vérification robustes pour les systèmes de chiffon: assurer des réponses LLM précises et pertinentes Par Kaitai Dong
Ce blog explore six méthodes de vérification pour garantir la précision et la pertinence des réponses des systèmes de génération (RAG) de la récupération. Il détaille des techniques comme LLM-As-Judge, la vérification de récupération et la vérification des entités / des réclamations, qui évaluent la précision factuelle et l’alignement de la source. L’article couvre également l’alignement des questions-réponses pour garantir la pertinence, l’estimation de la confiance pour la quantification de l’incertitude et la vérification multi-perspective pour la cohérence entre les réponses multiples. Les forces, les faiblesses et les meilleurs cas d’utilisation de chaque méthode sont analysés, fournissant des conseils pratiques pour construire des pipelines de vérification robustes pour améliorer la fiabilité des applications LLM.
4 🚅 Théorie de l’information pour les personnes pressées Par PhD Eyal Kazin
Ce blog explore les concepts clés de la théorie de l’information: auto-information, entropie, entropie croisée et divergence KL. Il explique comment ces mesures quantifient la surprise, l’incertitude et le désalignement entre les distributions de probabilité. En utilisant un exemple de prévision météorologique, il montre comment l’entropie croisée peut optimiser la longueur des messages dans la compression des données et la communication efficace. Il met également en évidence les applications pratiques de ces concepts dans apprentissage automatique et l’analyse des données, fournissant du code Python pour les calculs.
Si vous êtes intéressé à publier avec Vers IA, Vérifiez nos directives et inscrivez-vous. Nous publierons votre travail sur notre réseau s’il répond à nos politiques et normes éditoriales.
Publié via Vers l’IA
Source link