Les données synthétiques déraillent-elles l’élan génératives de l’IA ou seront-elles la percée dont nous avons besoin?

Avec la montée de AI génératifles images synthétiques et le texte sont devenus une notoriété publique – mais connaissez-vous Données synthétiques? Comme son nom l’indique, le terme fait référence aux données générées artificiellement et utilisées pour remplacer les données réelles. Il est utilisé pour créer des solutions pour les soins de santé, la finance, l’industrie automobile et, surtout, l’intelligence artificielle.
Les données synthétiques font partie intégrante de la révolution numérique que South By Southwest (SXSW) a tenu une session d’IA intitulée « Impact des données simulées sur l’IA et l’avenir », censé analyser la capacité de la technologie à renforcer et à soutenir une IA générative, tout en évaluant les risques potentiels.
Aussi: 10 raisons clés, AI est devenu courant du jour au courant – et ce qui se passe ensuite
Le panel a présenté les panélistes d’experts Mike Hollinger, directeur de la gestion des produits, Enterprise Gen AI Software at Nvidia; Oji Udezue, CPO sur typeform; et Tahir Ekin, président de Fields en analyse commerciale de la Texas State University, qui a tous conservé une perspective positive globale sur la technologie.
« Pour nous, il (les données synthétiques) rend notre capacité à construire la bonne chose moins chère et meilleure – ce qui est un Saint Graal », a déclaré Udezue.
Pour en savoir plus sur le potentiel des données synthétiques à faire avancer l’espace d’IA, ses risques et ses conseils des experts sur la façon de procéder, en savoir plus ci-dessous.
Les avantages
Les données synthétiques permettent aux utilisateurs de simuler des informations réelles dans les situations où la collecte de données réelles serait trop coûteuse, longue, ou pourrait poser des problèmes de confidentialité – comme impliquer des informations financières sensibles.
Sa récente augmentation de la popularité est en grande partie due à son rôle croissant dans la formation et le raffinage de l’apprentissage automatique et des modèles d’IA, qui est devenu de plus en plus crucial au milieu du développement rapide de ces modèles au cours de la dernière année.
Aussi: Votre entreprise est-elle prête à Ai? 5 façons d’éviter de prendre du retard
« Avec Chatgpt, avec Gemini, avec Claude, avec Deepseek, avec l’un de ces modèles, à l’intérieur des données de formation de ce modèle est probablement une étape de génération synthétique », a déclaré Hollinger. « Ces données synthétiques prennent des parties de ce matériel de formation, et elle l’amplifie pour donner différentes variations afin que je puisse ensuite former le modèle pour donner la sortie. »
Les données synthétiques sont particulièrement utiles pour les modèles d’IA car ils nécessitent des ensembles de données importants, divers et de haute qualité pour une formation efficace qui peut être difficile ou peu pratique à obtenir. Cela est particulièrement vrai lors du ciblage des ensembles de données de niche, propriétaires ou originaux qui ne sont pas facilement disponibles via le grattage des données publiques.
Dans un Rapport publié la semaine dernièrele cabinet de recherche Gartner a identifié des données synthétiques comme l’une des principales tendances des données et des analyses pour 2025. Plus précisément, le rapport encourage l’utilisation de données synthétiques pour compléter les domaines où la compréhension est manquante ou incomplète ou pour remplacer les données sensibles pour hiérarchiser la confidentialité.
Les risques
Pour créer des données synthétiques, des algorithmes complexes prennent un ensemble de données original et reproduisez les modèles, les structures et les autres caractéristiques trouvés dans ces données. Cependant, comme pour toute autre sortie d’IA, il existe un potentiel pour certains écarts qui peuvent avoir un impact significatif.
Pour illustrer cette idée, Hollinger a utilisé l’exemple du nombre d’heures le jour de la conférence, ce qui était une question délicate car, techniquement, dimanche, il y a eu 23 heures en raison de la lumière du jour.
Si un échantillon de données provenait de jours aléatoires tout au long de l’année, il serait possible que l’un des jours sélectionnés soit dans une ville avec des changements de temps d’été, où il y avait une heure de moins. Un pipeline de données synthétique construit à partir de cet échantillon aurait effacé la précision du modèle.
Aussi: Voici ce que l’IA signifie probablement pour les outils de BI et d’analyse traditionnels
Par conséquent, lors de la construction d’ensembles de données synthétiques, il est impératif que les données soient fondées sur le monde réel pour éviter ces types d’incongrunces et s’assurer que l’ensemble de données est aussi représentatif du scénario qu’il est censé représenter le plus possible. Cependant, même lorsque vous prenez cette mesure et en tenant compte de l’entropie, il est souvent difficile d’assurer la précision, selon Udezue.
« Les humains sont imprévisibles de manière imprévisible », a déclaré Udezue. « Comment prédisez-vous la variation de 8 milliards de personnes? »
Au-delà des défis techniques, l’un des plus grands obstacles à surmonter sera de gagner la confiance des utilisateurs lors de l’utilisation de données synthétiques comme source principale pour informer et créer de nouvelles solutions. Pour établir cette confiance, la transparence autour de la façon dont les données synthétiques sont générées, validées et appliquées, avec une délimitation claire, comme par le biais de cartes de modèle, est importante.
« L’aspect Trust – du point de vue des utilisateurs, nous utilisons ces outils d’IA, mais comment vous sentez-vous entrer dans une voiture autonome qui n’a pas été testée sur la route mais n’a été testée qu’à l’aide de données simulées? » dit Ekin.
Avoir hâte de
Malgré les défis, le panel est resté optimiste quant à l’utilisation de la technologie à l’avenir de l’IA et au-delà. Cela ne signifie pas que les défis ne sont pas là ou que ce travail ne doit pas être fait, mais son potentiel global pour alimenter la croissance dans tous les secteurs est toujours génial.
Aussi: Comment les entreprises accélèrent le temps à la valeur de l’IA agentique
« Les données simulées, lorsqu’elles sont correctement utilisées, augmenteront la science, augmenteront les logiciels, augmenteront l’industrie, mais ce que nous avons pour obtenir la bonne gouvernance et la transparence, ou nous ne pourrons pas en profiter correctement », a déclaré Udezue.