Ant Group utilise des puces domestiques pour former des modèles d’IA et réduire les coûts

Ant Group s’appuie sur les semi-conducteurs de fabrication chinoise pour former des modèles d’intelligence artificielle pour réduire les coûts et réduire la dépendance à la technologie américaine restreinte, selon des personnes familières avec le problème.
La société appartenant à Alibaba a utilisé des puces de fournisseurs nationaux, y compris ceux liés à son parent, Alibabaet Huawei Technologies pour former de grands modèles de langage en utilisant la méthode du mélange d’experts (MOE). Les résultats auraient été comparables à ceux produits avec les puces H800 de NVIDIA, selon des sources. Alors que Ant continue d’utiliser des puces Nvidia pour une partie de son développement de l’IA, une sources a déclaré que la société se tourne de plus en plus vers des alternatives d’AMD et des fabricants de chips chinois pour ses derniers modèles.
Le développement signale une implication plus profonde d’Ant dans la course croissante de l’IA entre les entreprises chinoises et américaines, en particulier alors que les entreprises recherchent des moyens rentables de former des modèles. L’expérimentation avec le matériel national reflète un effort plus large parmi les entreprises chinoises pour contourner les restrictions d’exportation qui bloquent l’accès à des puces haut de gamme comme le H800 de Nvidia, qui, bien que non plus avancée, est toujours l’un des GPU les plus puissants disponibles pour les organisations chinoises.
Ant a publié un article de recherche décrivant son travail, déclarant que ses modèles, dans certains tests, ont mieux fonctionné que ceux développés par Meta. Bloomberg Newsqui a initialement signalé la question, n’a pas vérifié les résultats de l’entreprise indépendamment. Si les modèles fonctionnent comme le prétend, les efforts d’ANT peuvent représenter un pas en avant dans la tentative de la Chine de réduire le coût de l’exécution des applications d’IA et de réduire la dépendance au matériel étranger.
Les modèles MOE divisent les tâches en ensembles de données plus petits gérés par des composants distincts et ont attiré l’attention parmi les chercheurs de l’IA et les scientifiques des données. La technique a été utilisée par Google et la startup basée à Hangzhou, Deepseek. Le concept MOE est similaire à une équipe de spécialistes, chacun gérant une partie d’une tâche pour rendre le processus de production de modèles plus efficace. Ant a refusé de commenter ses travaux concernant ses sources matérielles.
La formation des modèles MOE dépend des GPU haute performance qui peuvent être trop chers pour les petites entreprises à acquérir ou à utiliser. Les recherches d’Ant se sont concentrées sur la réduction de cette barrière de coût. Le titre du papier est suffixé avec un objectif clair: les modèles de mise à l’échelle «sans GPU premium». (nos guillemets)
La direction prise par ANT et l’utilisation du MOE pour réduire les coûts de formation contrastent avec l’approche de Nvidia. L’officier du PDG, Jensen Huang, a déclaré que la demande de puissance de calcul continuera de croître, même avec l’introduction de modèles plus efficaces comme le R1 de Deepseek. Son avis est que les entreprises rechercheront des puces plus puissantes pour stimuler la croissance des revenus, plutôt que de réduire les coûts avec des alternatives moins chères. La stratégie de Nvidia reste axée sur la construction de GPU avec plus de cœurs, de transistors et de mémoire.
Selon l’article du groupe ANT, la formation d’un billion de jetons – les unités de base des modèles de données sur l’IA utilisent pour apprendre – coûter environ 6,35 millions de yuans (environ 880 000 $) en utilisant du matériel conventionnel haute performance. La méthode de formation optimisée de l’entreprise a réduit ce coût à environ 5,1 millions de yuans en utilisant des puces à faible spécification.
Ant a déclaré qu’elle prévoyait d’appliquer ses modèles produits de cette manière – Ling-Plus et Ling-Lite – aux cas d’utilisation de l’IA industrielle comme les soins de santé et la finance. Plus tôt cette année, la société a acquis Haodf.com, une plate-forme médicale en ligne chinoise, afin de poursuivre l’ambition d’Ant de déployer des solutions basées sur l’IA dans les soins de santé. Il exploite également d’autres services d’IA, y compris une application d’assistant virtuel appelé Zhixiaobao et une plate-forme consultative financière connue sous le nom de Maxiaocai.
«Si vous trouvez un point d’attaque pour battre les meilleurs du monde kung-fu Maître, vous pouvez toujours dire que vous les battez, c’est pourquoi l’application du monde réel est importante », a déclaré Robin Yu, directeur de la technologie de la société d’IA basée à Pékin, Shengshang Tech.
Ant a créé ses modèles open source. Ling-Lite a 16,8 milliards de paramètres – les paramètres qui aident à déterminer le fonctionnement d’un modèle – tandis que Ling-plus compte 290 milliards. À titre de comparaison, les estimations suggèrent que le GPT-4.5 de source fermée a environ 1,8 billion de paramètres, selon Revue de la technologie du MIT.
Malgré les progrès, le document d’Ant a noté que les modèles de formation restent difficiles. De petits ajustements à la structure matérielle ou du modèle pendant la formation des modèles ont parfois entraîné des performances instables, y compris les pics de taux d’erreur.
(Photo de Désactiver)
Voir aussi: Deepseek V3-0324 dépasse d’abord les modèles d’IA non renvoyés en open source
Vous voulez en savoir plus sur l’IA et les Big Data des leaders de l’industrie? Vérifier AI et Big Data Expo se déroulant à Amsterdam, en Californie et à Londres. L’événement complet est colocalisé avec d’autres événements de premier plan, notamment Conférence d’automatisation intelligente, Blockx, Semaine de transformation numériqueet Cyber Security & Cloud Expo.
Explorez d’autres événements et webinaires de technologie d’entreprise à venir alimentés par Techforge ici.