Lai # 72: De Python Groundwork à la fonction des appels, la théorie ICL et l’équilibrage de la charge

 Lai # 72: De Python Groundwork à la fonction des appels, la théorie ICL et l’équilibrage de la charge

Auteur (s): Vers l’équipe éditoriale de l’IA

Publié à l’origine sur Vers l’IA.

Bonjour, les passionnés de l’IA!

Le numéro de cette semaine plie deux extrémités du spectre: les fondations dont vous avez besoin pour commencer, et les outils et idées nuancés façonnant la façon dont nous construisons avec l’IA aujourd’hui. Nous commençons par un guide clair et accessible sur les concepts de Python et de base de l’informatique – idéal si vous commencez simplement ou que vous vous efforcez des bases. Mais à partir de là, les choses vont plus loin.

Vous apprendrez à former Nanogpt pour gérer la fonction appelant nativement – aucune astuce rapide requise. Nous explorons comment transformer les données brutes en règles prêtes à l’entreprise, améliorer les prévisions avec une désintégration adaptative et évaluer LLM Performance avec rigueur statistique. Et si vous avez suivi notre série Deepseek, la fonctionnalité de cette semaine sur l’équilibrage de charge sans perte auxiliaire ferme la boucle avec une solution étonnamment élégante.

Qu’est-ce que l’AI chaque semaine

Cette semaine Qu’est-ce que l’AIJe plonge dans les fondamentaux Python et les concepts CS. Ceci est censé être un guide de démarrage à guichet unique pour un débutant total de programmation. Je vais faire des choses une étape à la fois et utiliser des exemples pour expliquer chaque concept. Ne vous inquiétez pas, si vous ne saisissez pas tous les concepts de ce seul article, vous pouvez toujours en savoir plus sur eux dans notre Cours Python. Commencez votre apprentissage avec cet article ou Regardez la vidéo sur YouTubeet pratiquez ces concepts pour les comprendre vraiment!

– Louis-François Bouchard, vers le co-fondateur de l’IA et chef de la communauté

Apprenez la section communautaire AI ensemble!

Article communautaire en vedette de The Discord

Blondu0994 a construit une plate-forme tout-en-un pour les traductions, les transcriptions, l’OCR, les conversions PDF / Word / Excel et les signatures électroniques. Il est alimenté par l’IA, entièrement automatisé et fonctionne sans API commerciaux. Il cherche des commentaires, allez le vérifier et soutient un autre membre de la communauté. Si vous avez des questions sur l’outil, tendre la main dans le fil!

Sondage de l’IA de la semaine!

Alors que les sondages montrent que la plupart d’entre vous utilisent 4O, la discussion dans le fil est passé d’Openai à Deepseek, à la perplexité et aux Gémeaux. Le prix guide-t-il cette décision ou cette performance? Aussi curieux de savoir pourquoi quelqu’un n’utilise toujours pas Grok. Dites-moi dans le fil sur Discord!

Opportunités de collaboration

La communauté de Discord Learn AI ensemble inonde d’opportunités de collaboration. Si vous êtes ravi de plonger dans une IA appliquée, voulez un partenaire d’étude ou même souhaitez trouver un partenaire pour votre projet de passion, Rejoignez le canal de collaboration! Gardez également un œil sur cette section – nous partageons des opportunités intéressantes chaque semaine!

1 et 1 Uwaix. veut faire des recherches dans l’IA et recherche des personnes qui aimeraient les rejoindre. Si vous avez des idées de sujet ou si vous souhaitez poursuivre des recherches, Connectez-vous avec eux dans le fil!

2 _madara_uchiha_ Explore Numpy et d’autres bibliothèques Python et recherche un partenaire de responsabilité disponible pour étudier trois heures par jour. Si vous avez le temps et que vous vous concentrez sur les mêmes sujets, tendre la main vers lui dans le fil!

MEME de la semaine!

MEME partagé par bin4ry_d3struct0r

Section Tai organisée

Article de la semaine

Des premiers principes: la fonction de construction appelant par un nanogpt final Par Suyash Harlalka

Ce blog fournit une procédure pas à pas détaillée pour implémenter l’appel des fonctions en réglant un modèle de type nanogpt en utilisant uniquement Pytorch et Tiktoken. Contrairement aux méthodes nécessitant des définitions de fonction dans les invites, cette approche forme le modèle à générer directement des sorties structurées, améliorant l’efficacité. Il explique ensemble de données Exigences, ajustements de jetons avec des jetons spéciaux, techniques de masquage des pertes personnalisées pendant la formation et l’exécution globale de la formation. La progression du modèle est illustrée par des exemples à différentes étapes de formation. Développeurs et chercheurs intéressés par une compréhension de bas niveau de LLM Personnalisation et fonction efficace Les appels d’appel sans abstractions de bibliothèque de haut niveau trouveront ce guide informatif.

Nos articles à lire à lire

1 et 1 Extraction de règles exploitables à partir de données brutes Par Nehdiii

Ce travail détaille les méthodes pour extraire les règles métier interprétables à partir de données Arbre de décision Classificateurs, utiles lorsque la vitesse ou la clarté est préférée aux modèles complexes. Il couvert arbre de décision Théorie, y compris l’impureté Gini, et a offert un guide pratique utilisant Sklearn avec un marketing bancaire ensemble de données. Les étapes clés consistaient à construire le modèle, à analyser programmatique la structure des arbres pour les règles et à traiter le codage des caractéristiques catégorielles. Différentes stratégies, comme le comptage et le codage cible (avec lissage pour les caractéristiques à haute cardinalité), ont été comparées.

2 ARMA ADAPTIVE DE DIMESSION DE DÉCRIE: Une nouvelle approche des prévisions de séries chronologiques Par Shenggang Li

Cet article présente un ARMA pondéré en fonction de la désintégration, une approche de prévision des séries chronologiques portant sur la limitation des modèles traditionnels qui traitent toutes les données passées également. Il accorde une plus grande importance aux observations récentes en utilisant une fonction de décroissance dans le calcul de la perte, avec le taux de décroissance adaptable ou appris des données. La méthode intègre des décalages AR standard, des moyennes mobiles et des composants saisonniers. Les tests empiriques sur les données de production d’électricité ont montré que cette technique, en particulier avec un facteur de désintégration apprise, a réalisé une erreur de pourcentage absolue moyenne (MAP) par rapport aux modèles AR standard AR, ARMA (1,1) et AR à travers divers horizons de prévision, démontrant une précision prédictive améliorée.

3 et 3 L’apprentissage dans le contexte expliqué comme jamais auparavant Par Allohvk

Cet article a examiné l’apprentissage dans le contexte (ICL), une capacité émergente où les modèles de grande langue (LLM) apprennent les tâches à partir d’exemples rapides sans réglage fin. Il a examiné plusieurs mécanismes proposés derrière ce phénomène. Les explications incluent l’achèvement du modèle, les concepts de copie des chefs d’induction, la recherche le plus proche de l’Eightbor et l’inférence bayésienne. Une théorie proéminente suggère que les mécanismes d’attention simulent descente de dégradé Pendant l’inférence, l’apprentissage en ajustant les activations sur la base d’exemples rapides. Comprendre ces différentes théories fournit des informations plus approfondies sur les capacités LLM.

4 Évaluation LLM basée sur les données avec tests statistiques Par Robert Martin-Short

Cette pièce a exploré à l’aide de méthodes statistiques empiriques, en particulier des tests d’amorçage et de permutation, pour évaluer les améliorations des applications LLM. Il a relevé le défi d’évaluer les résultats non déterministes en appliquant ces tests aux mesures d’évaluation, démontré par un exemple d’amélioration des résumés de notes médicales en fonction des scores de lisibilité. L’analyse a montré comment la signification statistique peut quantifier la confiance dans les changements d’invites itératifs, compte tenu de la variabilité inhérente aux sorties LLM. Cette approche basée sur les données permet de confirmer si les gains de performances observés sont significatifs.

5 Deepseek-V3 expliquée partie 3: équilibrage de charge sans perte auxiliaire Par Nehdiii

En tant que troisième partie d’une série sur l’architecture de Deepseek-V3 (qui couvrait auparavant l’attention latente multi-tête et Deepseekmoe), cette pièce détaille sa technique d’équilibrage de charge sans perte auxiliaire pour les modèles de mélange de mélange (MOE). Il a décrit la nécessité d’équilibrer la charge pour éviter des problèmes tels que l’effondrement de l’itinéraire et l’instabilité de la formation. Les méthodes antérieures, y compris les fonctions de perte auxiliaires (risque d’interférence du gradient) et le choix d’experts (avec des préoccupations de causalité), ont été examinées. L’approche de Deepseek ajuste directement les scores de déclenchement en utilisant un biais d’experts basé sur les affectations de jetons, contournant les pertes auxiliaires tout en préservant la causalité. Les évaluations ont indiqué que cette méthode réalise un équilibre favorable entre les performances du modèle et la distribution de charge.

Si vous êtes intéressé à publier avec Vers IA, Vérifiez nos directives et inscrivez-vous. Nous publierons votre travail sur notre réseau s’il répond à nos politiques et normes éditoriales.

Publié via Vers l’IA



Source link

Related post