Un modèle Google Gemini a maintenant un «cadran» pour ajuster à quel point il raisonne

 Un modèle Google Gemini a maintenant un «cadran» pour ajuster à quel point il raisonne


«Nous avons vraiment poussé« la pensée », explique Jack Rae, chercheur principal chez Deepmind. Ces modèles, qui sont conçus pour résoudre les problèmes logiquement et passer plus de temps à arriver à une réponse, ont augmenté plus tôt cette année avec le lancement du modèle Deepseek R1. Ils sont attrayants pour les entreprises d’IA, car elles peuvent améliorer un modèle existant en la formant pour aborder un problème de manière pragmatique. De cette façon, les entreprises peuvent éviter d’avoir à construire un nouveau modèle à partir de zéro.

Lorsque le modèle d’IA consacre plus de temps (et énergie) Pour une requête, il en coûte plus cher à fonctionner. Classement Des modèles de raisonnement montrent qu’une tâche peut coûter plus de 200 $ à compléter. La promesse est que ces modèles de raisonnement en temps et en argent supplémentaires font mieux pour gérer les tâches difficiles, comme analyser le code ou recueillir des informations à partir de nombreux documents.

« Plus vous pouvez itérer sur certaines hypothèses et pensées », explique Google Deepmind, le directeur technique Koray Kavukcuoglu, plus « il va trouver la bonne chose. »

Ce n’est pas vrai dans tous les cas, cependant. «Le modèle trop réfléchi», explique Tulsee Doshi, qui dirige l’équipe de produits de Gemini, se référant spécifiquement à Gemini Flash 2.5, le modèle publié aujourd’hui qui comprend un curseur pour les développeurs pour en rendre à quel point il pense. « Pour des invites simples, le modèle pense plus que ce qu’il a besoin. »

Lorsqu’un modèle dépense plus longtemps que nécessaire pour un problème, il rend le modèle coûteux à exécuter pour les développeurs et aggrave l’IA empreinte environnementale.

Nathan Habib, ingénieur de Hugging Face qui a étudié la prolifération de ces modèles de raisonnement, dit que la réflexion est abondante. Dans la hâte pour montrer l’IA plus intelligente, les entreprises recherchent des modèles de raisonnement comme des marteaux même là où il n’y a pas de clou en vue, dit Habib. En effet, quand Openai annoncé Un nouveau modèle en février, il a déclaré que ce serait le dernier modèle de non-renvoi de l’entreprise.

Le gain de performance est «indéniable» pour certaines tâches, dit Habib, mais pas pour beaucoup d’autres où les gens utilisent normalement l’IA. Même lorsque le raisonnement est utilisé pour le bon problème, les choses peuvent mal tourner. Habib m’a montré un exemple d’un modèle de raisonnement principal qui a été invité à résoudre un problème de chimie organique. Cela a commencé bien, mais à mi-chemin de son processus de raisonnement, les réponses du modèle ont commencé à ressembler à une effondrement: il a pulvérisé «Attendez, mais…» des centaines de fois. Il a fini par prendre beaucoup plus de temps qu’un modèle non rasé dépenserait pour une tâche. Kate Olszewska, qui travaille sur l’évaluation des modèles Gemini chez DeepMind, dit que les modèles de Google peuvent également rester coincés en boucles.

Le nouveau cadran «raisonnement» de Google est une tentative de résoudre ce problème. Pour l’instant, il n’est pas construit pour la version grand public des Gémeaux, mais pour les développeurs qui créent des applications. Les développeurs peuvent définir un budget pour la quantité de calcul de la puissance que le modèle devrait dépenser pour un certain problème, l’idée étant de refuser le cadran si la tâche ne devait pas du tout impliquer beaucoup de raisonnement. Les sorties du modèle sont environ six fois plus coûteuses à générer lorsque le raisonnement est activé.



Source link

Related post