Revue du papier: Frugalgpt – Fastml

Intelligence Artificielle
Noesis News
mars 9, 2025
0
49
3 minutes de lecture

Les modèles de grandes langues sont coûteux. Dans l’article, nous sommes sur le point de réviser, quelques gars de Stanford présentent leur idée de la façon de les rendre moins chers. Plus précisément, ils parlent d’appeler des API de fournisseurs comme Openai et d’autres. Ils offrent quelques stratégies générales comme l’adaptation rapide et la mise en cache des résultats, mais la principale chose dans laquelle ils vont est d’utiliser une cascade de modèles. L’idée est simple: vous organisez les modèles pour appeler du moins cher au plus cher, et commencez par les moins chers. Si la réponse est acceptable, vous vous arrêtez, sinon, vous continuez avec la suivante.

FRUGALGPT: Comment utiliser de grands modèles de langage tout en réduisant les coûts et en améliorant les performances

La question évidente ici est de savoir comment décider si la réponse est assez bonne. La solution des auteurs consiste à former un modèle de notation supervisé aux axulements (Distilbert) sur les paires de questions-réponses. Le modèle produit des scores, et si le score est supérieur à un certain seuil, le système juge la réponse satisfaisante.

Cela suscite la question suivante: comment choisissez-vous le seuil? C’est un problème d’optimisation dans lequel nous n’entrerons pas, car il y a des considérations pratiques plus importantes à examiner. Plus précisément, ils expérimentent sur trois ensembles de données – sur la prévision des changements dans les prix de l’or, la classification juridique et les questions et réponses générales. Ils en font cascade trois modèles sur chacun, et ces trois modèles sont différents pour chaque ensemble de données, se terminant généralement par GPT-4. Les seuils pour accepter une réponse sont également différents d’un ensemble de données à l’autre et d’un modèle à l’autre.

À ce stade, vous avez peut-être deviné où nous allons avec ceci: cela fonctionnera-t-il dans le monde réel? Nous dirions, probablement pas. Cela dépend d’une application. Si les utilisateurs posent des questions dans un domaine bien défini, vous pourriez peut-être configurer un système comme celui-ci. Pour un assistant général de l’IA, il y a trop de pièces mobiles pour le retirer. Par exemple, il serait difficile de former le modèle de score à des fins générales.

Pourtant, si quelqu’un gère un grand volume de requêtes utilisateur, l’idée plus large de modèles en cascade, ou peut-être de router des requêtes vers différents modèles, pourrait être prometteur.

Source link

Revue du papier: Frugalgpt – Fastml

Noesis News

Leave a Reply Cancel reply

Posts Récents

Commentaires Récents

Archives

Catégories

Elon Musk prévient que l’IA « va évidemment faire...

(R) Observer les modèles inattendus dans la demande...

Comment construire un pipeline de données léger avec...

Le navigateur COMET AI de Perplexity pourrait exposer...

Elon Musk prévient que l’IA « va évidemment faire...

(R) Observer les modèles inattendus dans la demande...

Comment construire un pipeline de données léger avec...

Le navigateur COMET AI de Perplexity pourrait exposer...

Blog des gens •

Économisez 235 $ sur l’outil de diagrammes de...

Rise Robotics collecte des fonds pour les actionneurs...

Comment l’IA changera la conception des puces

L’IA d’Elon Musk propose des

Last Week in AI #297

Voici quelle est la tendance