Comment exécuter un LLM sur votre ordinateur portable
Pour Pistilli, opter pour des modèles locaux par opposition aux chatbots en ligne a des implications au-delà de la vie privée. «La technologie signifie le pouvoir», dit-elle. «Et donc à qui est (toujours) propriétaire de la technologie qui possède également le pouvoir.» Les États, les organisations et même les individus pourraient être motivés à perturber la concentration du pouvoir de l’IA entre les mains de quelques entreprises en gérant leurs propres modèles locaux.
Rompre avec les grandes entreprises d’IA signifie également avoir plus de contrôle sur votre expérience LLM. Les LLM en ligne se déplacent constamment sous les pieds des utilisateurs: en avril, Chatgpt a soudainement commencé à sucer Pour les utilisateurs bien plus qu’auparavant, et la semaine dernière, Grok a commencé à s’appeler Mechahitler sur X.
Les fournisseurs ajustent leurs modèles avec peu d’avertissement, et bien que ces ajustements puissent parfois améliorer les performances du modèle, ils peuvent également provoquer des comportements indésirables. Les LLM locaux peuvent avoir leurs bizarreries, mais au moins elles sont cohérentes. La seule personne qui peut changer votre modèle local est vous.
Bien sûr, tout modèle pouvant s’adapter sur un ordinateur personnel sera moins puissant que les offres en ligne des principales sociétés d’IA majeures. Mais il y a un avantage à travailler avec des modèles plus faibles – ils peuvent vous inoculer contre les limites plus pernicieuses de leurs plus grands pairs. Les petits modèles peuvent, par exemple, halluciner plus fréquemment et plus évidemment que Claude, GPT et Gemini, et voir ces hallucinations peut vous aider à sensibiliser à la manière et au moment où les modèles plus grands pourraient également mentir.
«La gestion de modèles locaux est en fait un très bon exercice pour développer cette intuition plus large pour ce que ces choses peuvent faire», explique Willison.
Comment commencer
Les LLM locaux ne sont pas uniquement pour les codeurs compétents. Si vous êtes à l’aise d’utiliser l’interface de ligne de commande de votre ordinateur, qui vous permet de parcourir les fichiers et d’exécuter des applications à l’aide d’invites de texte, Ollla est une excellente option. Une fois que vous avez installé le logiciel, vous pouvez télécharger et exécuter l’un des centaines de modèles qu’ils proposent avec un commande unique.
Si vous ne voulez pas toucher quelque chose qui ressemble même à du code, vous pouvez opter pour Studio LMune application conviviale qui retire une grande partie de la conjecture de l’exécution des LLM locales. Vous pouvez parcourir des modèles en étreignant le visage à partir de l’application, ce qui fournit de nombreuses informations pour vous aider à faire le bon choix. Certains modèles populaires et largement utilisés sont étiquetés comme des «choix de personnel», et chaque modèle est étiqueté en fonction de la question de savoir s’il peut être exécuté entièrement sur le GPU rapide de votre machine, doit être partagé entre votre GPU et le processeur plus lent, ou est trop grand pour s’adapter à votre appareil. Une fois que vous avez choisi un modèle, vous pouvez le télécharger, le charger et commencer à interagir avec lui à l’aide de l’interface de chat de l’application.
Lorsque vous expérimentez différents modèles, vous commencerez à avoir une idée de ce que votre machine peut gérer. Selon Willison, tous les milliards de paramètres du modèle nécessitent environ un Go de RAM pour fonctionner, et j’ai constaté que l’approximation était exacte: mon propre ordinateur portable de 16 Go a réussi à exécuter Alibaba Qwen3 14b Tant que je quitte presque toutes les autres applications. Si vous rencontrez des problèmes de vitesse ou de convivialité, vous pouvez toujours aller plus petit – j’ai également obtenu des réponses raisonnables de Qwen3 8b.
