5 projets d’IA génératifs amusants pour les débutants absolus

Image de l’auteur | Toile
# Introduction
Ceci est le deuxième article de ma série de projets pour débutants. Si vous n’avez pas vu le premier sur Python, cela vaut la peine de vérifier: 5 projets Python amusants pour les débutants absolus.
Alors, qu’est-ce que AI génératif ou Gen AI? Il s’agit de créer de nouveaux contenus comme du texte, des images, du code, de l’audio ou même de la vidéo à l’aide de l’IA. Avant l’ère des grands modèles de langue et de vision, les choses étaient très différentes. Mais maintenant, avec la montée en puissance de modèles de fondation comme GPT, Llama et Llava, tout a changé. Vous pouvez créer des outils créatifs et des applications interactives sans avoir à former des modèles à partir de zéro.
J’ai choisi ça 5 projets pour couvrir un peu de tout: texte, image, voix, vision et quelques concepts backend comme le réglage fin et le chiffon. Vous pourrez essayer à la fois des solutions basées sur l’API et des configurations locales, et à la fin, vous aurez touché tous les blocs de construction utilisés dans la plupart des applications Gen AI modernes. Alors, commençons.
# 1. Application de générateur de recettes (génération de texte)
Lien: Construisez un générateur de recettes avec React et AI: Code rencontre la cuisine
Nous allons commencer par quelque chose de simple et amusant qui n’utilise que la génération de texte et une clé API, pas besoin de configuration lourde. Cette application vous permet de saisir quelques détails de base tels que les ingrédients, le type de repas, la préférence de cuisine, le temps de cuisson et la complexité. Il génère ensuite une recette complète en utilisant GPT. Vous apprendrez à créer le formulaire Frontend, à envoyer les données à GPT et à rendre la recette générée par l’AI à l’utilisateur. Voici une autre version avancée de la même idée: Créez un chercheur de recettes AI avec GPT O1-Preview en 1 heure. Celui-ci a une ingénierie rapide plus avancée, un GPT-4, des suggestions, des substitutions d’ingrédients et un frontend plus dynamique.
# 2. Application générateur d’image (diffusion stable, configuration locale)
Lien: Construisez un générateur d’images Python AI en 15 minutes (libre et local)
Oui, vous pouvez générer des images sympas à l’aide d’outils comme Chatgpt, Dall · E ou MidJourney en tapant simplement une invite. Mais que se passe-t-il si vous voulez aller plus loin et exécuter tout localement sans frais d’API ni restrictions de cloud? Ce projet fait exactement cela. Dans cette vidéo, vous apprendrez à configurer une diffusion stable sur votre propre ordinateur. Le Créateur reste super simple: vous installez Python, clonez un repo d’interface utilisateur Web léger, téléchargez le point de contrôle du modèle et exécutez un serveur local. C’est ça. Après cela, vous pouvez saisir des invites de texte dans votre navigateur et générer des images AI instantanément, le tout sans appels Internet ou API.
# 3. Chatbot médical avec voix + vision + texte
Lien: Créez une application AI Voice Assistant à l’aide de LLM LLAVA et Whisper multimodal
Ce projet n’est pas spécifiquement construit en tant que chatbot médical, mais le cas d’utilisation correspond bien. Vous lui parlez, il écoute, il peut regarder une image (comme une radiographie ou un document), et il répond intelligemment en combinant les trois modes: voix, vision et texte. Il est construit à l’aide de Llava (un modèle multimodal en langue visuelle) et Whisper (modèle de parole d’Openai) dans une interface Gradio. La vidéo marche en le configurant sur Colab, en installant des bibliothèques, en quantifiant Llava pour fonctionner sur votre GPU et en les cousant avec GTTS pour les réponses audio.
# 4. LLMS modernes à réglage moderne
Lien: Fine Twir Gemma 3, Qwen3, Llama 4, Phi 4 et Mistral Small avec des non-vonts et des transformateurs
Jusqu’à présent, nous avons utilisé des modèles standard avec une ingénierie rapide. Cela fonctionne, mais si vous voulez plus de contrôle, le réglage fin est la prochaine étape. Cette vidéo de Trelis Research est l’une des meilleures du marché. Par conséquent, au lieu de suggérer un projet qui échange simplement un modèle de réglage fin, je voulais que vous vous concentriez sur le processus réel de régler un modèle vous-même. Cette vidéo vous montre comment affiner les modèles comme Gemma 3, Qwen3, Llama 4, PHI 4 et Mistral Small en utilisant un non-impasse (bibliothèque pour une formation plus rapide et économe en mémoire) et des transformateurs. Il est long (environ 1,5 heures), mais super ça vaut le coup. Vous apprendrez lorsque le réglage fin est logique, comment préparer des ensembles de données, exécuter des émeutes rapides à l’aide de VLLM et déboguer les problèmes de formation réels.
# 5. Construisez le chiffon local à partir de zéro
Lien: GÉNÉRATION AUGMÉDÉE DE RETRAINE LOCALE (RAG) à partir de zéro (tutoriel étape par étape)
Tout le monde aime un bon chatbot, mais la plupart s’effondrent lorsqu’ils sont interrogés sur des choses en dehors de leurs données de formation. C’est là que le chiffon est utile. Vous donnez à votre LLM une base de données vectorielle de documents pertinents, et il tire le contexte avant de répondre. La vidéo vous guide dans la construction d’un système de chiffon entièrement local à l’aide d’un cahier Colab ou de votre propre machine. Vous chargerez des documents (comme un manuel PDF), les diviserez en morceaux, générez des intégres avec un modèle de transformateur de phrase, les stockez dans SQLite-VSS et connectez tout cela à un LLM local (par exemple Llama 2 via Olllama). C’est le tutoriel de chiffon le plus clair que j’ai vu pour les débutants, et une fois que vous avez fait cela, vous comprendrez comment les plugins Chatgpt, les outils de recherche d’IA et les chatbots internes fonctionnent vraiment.
# Emballage
Chacun de ces projets vous apprend quelque chose d’essentiel:
Texte → Image → Vocation → Fonction → Retrievale
Si vous entrez simplement dans la génération AI et que vous voulez réellement construire des trucs, pas seulement jouer avec des démos, c’est votre plan. Commencez de celui qui vous excite le plus. Et rappelez-vous, c’est bien de casser les choses. C’est comme ça que vous apprenez.
Kanwal Mehreen Kanwal est ingénieur d’apprentissage automatique et écrivain technique avec une profonde passion pour la science des données et l’intersection de l’IA avec la médecine. Elle a co-écrit l’ebook « Maximiser la productivité avec Chatgpt ». En tant que Google Generation Scholar 2022 pour APAC, elle défend la diversité et l’excellence académique. Elle est également reconnue comme une diversité de Teradata dans Tech Scholar, le boursier de recherche Mitacs Globalink et le savant de Harvard WECODE. Kanwal est un ardent défenseur du changement, après avoir fondé des femmes pour autonomiser les femmes dans les champs STEM.
