Revue du papier: Frugalgpt – Fastml

 Revue du papier: Frugalgpt – Fastml


Les modèles de grandes langues sont coûteux. Dans l’article, nous sommes sur le point de réviser, quelques gars de Stanford présentent leur idée de la façon de les rendre moins chers. Plus précisément, ils parlent d’appeler des API de fournisseurs comme Openai et d’autres. Ils offrent quelques stratégies générales comme l’adaptation rapide et la mise en cache des résultats, mais la principale chose dans laquelle ils vont est d’utiliser une cascade de modèles. L’idée est simple: vous organisez les modèles pour appeler du moins cher au plus cher, et commencez par les moins chers. Si la réponse est acceptable, vous vous arrêtez, sinon, vous continuez avec la suivante.

FRUGALGPT: Comment utiliser de grands modèles de langage tout en réduisant les coûts et en améliorant les performances

La question évidente ici est de savoir comment décider si la réponse est assez bonne. La solution des auteurs consiste à former un modèle de notation supervisé aux axulements (Distilbert) sur les paires de questions-réponses. Le modèle produit des scores, et si le score est supérieur à un certain seuil, le système juge la réponse satisfaisante.

Cela suscite la question suivante: comment choisissez-vous le seuil? C’est un problème d’optimisation dans lequel nous n’entrerons pas, car il y a des considérations pratiques plus importantes à examiner. Plus précisément, ils expérimentent sur trois ensembles de données – sur la prévision des changements dans les prix de l’or, la classification juridique et les questions et réponses générales. Ils en font cascade trois modèles sur chacun, et ces trois modèles sont différents pour chaque ensemble de données, se terminant généralement par GPT-4. Les seuils pour accepter une réponse sont également différents d’un ensemble de données à l’autre et d’un modèle à l’autre.

À ce stade, vous avez peut-être deviné où nous allons avec ceci: cela fonctionnera-t-il dans le monde réel? Nous dirions, probablement pas. Cela dépend d’une application. Si les utilisateurs posent des questions dans un domaine bien défini, vous pourriez peut-être configurer un système comme celui-ci. Pour un assistant général de l’IA, il y a trop de pièces mobiles pour le retirer. Par exemple, il serait difficile de former le modèle de score à des fins générales.

Pourtant, si quelqu’un gère un grand volume de requêtes utilisateur, l’idée plus large de modèles en cascade, ou peut-être de router des requêtes vers différents modèles, pourrait être prometteur.



Source link

Related post

Leave a Reply

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *