Exécutez le modèle Full Deepseek-R1-0528 localement

 Exécutez le modèle Full Deepseek-R1-0528 localement

Exécutez le modèle Full Deepseek-R1-0528 localement
Image par auteur

Deepseek-R1-0528 est la dernière mise à jour du modèle de raisonnement R1 de Deepseek qui nécessite 715 Go d’espace disque, ce qui en fait l’un des plus grands modèles open source disponibles. Cependant, grâce aux techniques de quantification avancées de Insolitela taille du modèle peut être réduite à 162 Go, une réduction de 80%. Cela permet aux utilisateurs de ressentir toute la puissance du modèle avec des exigences matérielles nettement inférieures, mais avec un léger compromis de performances.

Dans ce tutoriel, nous allons:

  1. Configurez Olllama et ouvrez l’interface utilisateur Web pour exécuter le modèle Deepseek-R1-0528 localement.
  2. Téléchargez et configurez la version quantifiée 1.78 bits (IQ1_S) du modèle.
  3. Exécutez le modèle en utilisant les configurations GPU + CPU et CPU uniquement.

Étape 0: Prérequis


Pour exécuter la version quantifiée IQ1_S, votre système doit répondre aux exigences suivantes:

Exigences GPU: Au moins 1x GPU 24 Go (par exemple, NVIDIA RTX 4090 ou A6000) et 128 Go de RAM. Avec cette configuration, vous pouvez vous attendre à une vitesse de génération d’environ 5 jetons / seconde.

Exigences de RAM: Un minimum de 64 Go de RAM est nécessaire pour exécuter le modèle pour exécuter le modèle sans GPU, mais les performances seront limitées à 1 jeton / seconde.

Configuration optimale: Pour les meilleures performances (5+ jetons / seconde), vous avez besoin d’au moins 180 Go de mémoire unifiée ou une combinaison de 180 Go de RAM + VRAM.

Stockage: Assurez-vous d’avoir au moins 200 Go d’espace disque gratuit pour le modèle et ses dépendances.

Étape 1: Installez les dépendances et Olllama


Mettez à jour votre système et installez les outils requis. Olllama est un serveur léger pour exécuter localement des modèles de grands langues. Installez-le sur une distribution Ubuntu en utilisant les commandes suivantes:

apt-get update
apt-get install pciutils -y
curl -fsSL https://ollama.com/install.sh | sh

Étape 2: Téléchargez et exécutez le modèle


Exécutez la version quantifiée 1.78 bits (IQ1_S) du modèle Deepseek-R1-0528 en utilisant la commande suivante:

ollama serve &
ollama run hf.co/unsloth/DeepSeek-R1-0528-GGUF:TQ1_0
Exécutez le modèle Full Deepseek-R1-0528 localement

Étape 3: Configuration et exécution de l’interface utilisateur Web ouvrir


Tirez l’image Open Web UI Docker avec le support CUDA. Exécutez le conteneur UI Open Web avec le support GPU et l’intégration Olllama.

Cette commande sera:

  • Démarrez le serveur d’interface utilisateur ouverte sur le port 8080
  • Activer l’accélération du GPU en utilisant le --gpus all drapeau
  • Montez le répertoire de données nécessaire (-v open-webui:/app/backend/data)
docker pull ghcr.io/open-webui/open-webui:cuda
docker run -d -p 9783:8080 -v open-webui:/app/backend/data --name open-webui ghcr.io/open-webui/open-webui:cuda

Une fois le conteneur en cours d’exécution, accédez à l’interface d’interface utilisateur ouverte dans votre navigateur à http://localhost:8080/.

Étape 4: Exécution Deepseek R1 0528 dans Open WebUI


Sélectionnez le hf.co/unsloth/DeepSeek-R1-0528-GGUF:TQ1_0 Modèle à partir du menu modèle.


Exécutez le modèle Full Deepseek-R1-0528 localement

Si le serveur Ollama n’utilise pas correctement le GPU, vous pouvez passer à l’exécution du processeur. Bien que cela réduira considérablement les performances (environ 1 jeton / seconde), il garantit que le modèle peut encore fonctionner.

# Kill any existing Ollama processes
pkill ollama 

# Clear GPU memory
sudo fuser -v /dev/nvidia* 

# Restart Ollama service
CUDA_VISIBLE_DEVICES="" ollama serve

Une fois le modèle en cours d’exécution, vous pouvez interagir avec lui via une interface utilisateur Web ouverte. Cependant, notez que la vitesse sera limitée à 1 jeton / seconde en raison de l’absence d’accélération du GPU.


Exécutez le modèle Full Deepseek-R1-0528 localement

Réflexions finales


La course à pied même la version quantifiée était difficile. Vous avez besoin d’une connexion Internet rapide pour télécharger le modèle, et si le téléchargement échoue, vous devez redémarrer l’intégralité du processus depuis le début. J’ai également fait face à de nombreux problèmes en essayant de l’exécuter sur mon GPU, car je n’arrêtais pas d’obtenir des erreurs GGUF liées à un VRAM faible. Malgré plusieurs correctifs communs pour les erreurs de GPU, rien n’a fonctionné, donc j’ai finalement tout changé au processeur. Bien que cela ait fonctionné, il faut maintenant environ 10 minutes juste pour que le modèle génére une réponse, ce qui est loin d’être idéal.

Je suis sûr qu’il existe de meilleures solutions, peut-être en utilisant llama.cpp, mais croyez-moi, il m’a fallu toute la journée juste pour faire fonctionner cette course.

Abid Ali Awan (@ 1abidaliawan) est un professionnel certifié des data scientifiques qui aime construire des modèles d’apprentissage automatique. Actuellement, il se concentre sur la création de contenu et la rédaction de blogs techniques sur l’apprentissage automatique et les technologies de science des données. Abid est titulaire d’une maîtrise en gestion technologique et d’un baccalauréat en génie des télécommunications. Sa vision est de construire un produit d’IA en utilisant un réseau de neurones graphiques pour les étudiants aux prises avec une maladie mentale.



Source link

Related post