Un catalogue de mutations génétiques pour aider à identifier la cause des maladies

 Un catalogue de mutations génétiques pour aider à identifier la cause des maladies


Recherche

Publié
Auteurs

Žiga Avsec et Jun Cheng

Un nouvel outil d’IA classe les effets de 71 millions de mutations «faux-sens»

Découvrir les causes profondes de la maladie est l’un des plus grands défis de la génétique humaine. Avec des millions de mutations possibles et des données expérimentales limitées, il reste en grande partie un mystère que celle qui pourrait donner naissance à la maladie. Ces connaissances sont cruciales pour le diagnostic plus rapide et le développement de traitements vitaux.

Aujourd’hui, nous publions un catalogue des mutations «faux-sens» où les chercheurs peuvent en savoir plus sur l’effet qu’ils peuvent avoir. Les variantes faux-sens sont des mutations génétiques qui peuvent affecter la fonction des protéines humaines. Dans certains cas, ils peuvent entraîner des maladies telles que la fibrose kystique, l’anémie falciforme ou le cancer.

Le catalogue Alphamissesense a été développé en utilisant Alphamissesense, notre nouveau modèle d’IA qui classe les variantes faux-sens. Dans un article publié dans Sciencenous montrons qu’il a classé 89% des 71 millions de variantes faux-sens possibles comme étant probablement pathogènes ou probables. En revanche, seulement 0,1% ont été confirmés par des experts humains.

Les outils d’IA qui peuvent prédire avec précision l’effet des variantes ont le pouvoir d’accélérer la recherche entre les domaines de la biologie moléculaire à la génétique clinique et statistique. Expériences pour découvrir les mutations pathogènes sont chers et laborieux – chaque protéine est unique et chaque expérience doit être conçue séparément, ce qui peut prendre des mois. En utilisant des prédictions d’IA, les chercheurs peuvent obtenir un aperçu des résultats pour des milliers de protéines à la fois, ce qui peut aider à hiérarchiser les ressources et à accélérer des études plus complexes.

Nous avons rendu toutes nos prédictions disponibles gratuitement pour une utilisation commerciale et des chercheurs, et Open Sourced the Code modèle pour Alphamissesense.

Alphamissense prédit la pathogénicité de toutes les 71 millions de variantes faux-sens possibles. Il a classé 89% – prédisant que 57% étaient probablement bénins et 32% étaient probablement pathogènes.

Qu’est-ce qu’une variante faux-sens?

Une variante faux-sens est une substitution de lettres unique dans l’ADN qui se traduit par un acide aminé différent au sein d’une protéine. Si vous considérez l’ADN comme une langue, le changement d’une lettre peut changer un mot et modifier complètement la signification d’une phrase. Dans ce cas, une substitution change que l’acide aminé est traduit, ce qui peut affecter la fonction d’une protéine.

La personne moyenne transporte plus de 9 000 variantes faux-sens. La plupart sont bénins et ont peu ou pas d’effet, mais d’autres sont pathogènes et peuvent gravement perturber la fonction des protéines. Des variantes faux-sens peuvent être utilisées dans le diagnostic de maladies génétiques rares, où quelques-uns ou même une seule variante faux-sens peuvent provoquer directement des maladies. Ils sont également importants pour étudier les maladies complexes, comme le diabète de type 2, qui peut être causée par une combinaison de nombreux types de changements génétiques différents.

La classification des variantes faux-sens est une étape importante dans la compréhension de laquelle de ces changements de protéines pourrait donner lieu à la maladie. Sur plus de 4 millions de variantes faux-sens qui ont déjà été vues chez l’homme, seulement 2% ont été annotés comme pathogènes ou bénins par des experts, environ 0,1% des 71 millions de variantes faux-sens possibles. Les autres sont considérés comme des «variantes de signification inconnus» en raison d’un manque de données expérimentales ou cliniques sur leur impact. Avec Alphamissesense, nous avons maintenant l’image la plus claire à ce jour en classant 89% des variantes en utilisant un seuil qui a donné 90% de précision sur une base de données de variantes de maladie connues.

Pathogène ou bénin: comment alphamissense classe les variantes

Alphamissense est basé sur notre modèle révolutionnaire Alphafoldqui prédisait les structures pour presque toutes les protéines connues de la science de leurs séquences d’acides aminés. Notre modèle adapté peut prédire la pathogénicité des variantes faux-sens modifiant les acides aminés individuels des protéines.

Pour entraîner l’alphamissense, nous avons affiné l’alphafold sur les étiquettes distinguant les variantes observées dans les populations de primates humaines et étroitement liées. Les variantes couramment observées sont traitées comme bénignes et les variantes jamais vues sont traitées comme pathogènes. L’alphamissense ne prédit pas le changement de la structure des protéines lors de la mutation ou d’autres effets sur la stabilité des protéines. Au lieu de cela, il exploite les bases de données des séquences de protéines apparentées et le contexte structurel des variantes pour produire un score entre 0 et 1 évaluant approximativement la probabilité qu’un variant soit pathogène. Le score continu permet aux utilisateurs de choisir un seuil pour classer les variantes comme pathogènes ou bénignes qui correspondent à leurs exigences de précision.

Une illustration de la façon dont l’alphamissense classe les variantes faux-sens humaines. Une variante faux-sens est en entrée et le système d’IA le marque comme pathogène ou probable. Alphamissense combine le contexte structurel et la modélisation du langage des protéines, et est affiné sur les bases de données de fréquence de population variante humaine et primate.

AlphamisseSse réalise des prédictions de pointe à travers un large éventail de références génétiques et expérimentales, le tout sans formation explicite sur de telles données. Notre outil a surperformé d’autres méthodes de calcul lorsqu’elles sont utilisées pour classer les variantes de Clinvar, une archive publique de données sur la relation entre les variantes humaines et les maladies. Notre modèle était également la méthode la plus précise pour prédire les résultats du laboratoire, ce qui montre qu’il est cohérent avec différentes façons de mesurer la pathogénicité.

Alphamissense surpasse d’autres méthodes de calcul sur la prévision des effets variants faux-sens.
Gauche: Comparaison des performances alphamissesenses et autres méthodes sur la classification des variantes des archives publiques de Clinvar. Les méthodes montrées en gris ont été formées directement sur Clinvar et leurs performances sur cette référence sont probablement surestimées car certaines de leurs variantes de formation sont contenues dans cet ensemble de tests.
Droite: Graphique comparant l’alphamissense et les performances d’autres méthodes sur la prévision des mesures à partir d’expériences biologiques.

Construire une ressource communautaire

Alphamissense s’appuie sur Alphafold pour favoriser la compréhension du monde des protéines. Il y a un an, nous avons sorti 200 millions de structures de protéines prévu d’utiliser Alphafold – qui aide des millions de scientifiques du monde entier à accélérer la recherche et à ouvrir la voie à de nouvelles découvertes. Nous sommes impatients de voir comment l’alphamisse peut aider à résoudre les questions ouvertes au cœur de la génomique et à travers les sciences biologiques.

Nous avons rendu gratuitement les prédictions d’Alphamissesense à la fois pour les communautés commerciales et scientifiques. Avec Embl-Ebi, nous les rendons également plus utilisables à travers le Prédicteur d’effet variant en ensemble.

En plus de notre tableau de recherche de mutations faux-sens, nous avons partagé les prédictions élargies de toutes les substitutions possibles de 216 millions de séquences d’acides aminés à plus de 19 000 protéines humaines. Nous avons également inclus la prédiction moyenne pour chaque gène, qui est similaire à la mesure de la contrainte évolutive d’un gène – cela indique à quel point le gène est essentiel pour la survie de l’organisme.

Des exemples de prédictions alphamissenses superposés sur les structures prédites alphafold (rouge = prédit comme pathogène, bleu = prédite comme bénin, gris = incertain). Les points rouges représentent des variantes faux-sens pathogènes connues, les points bleus représentent des variantes bénignes connues de la base de données Clinvar.
Gauche: Protéine HBB. Les variantes de cette protéine peuvent provoquer une anémie falciforme.
Droite: Protéine CFTR. Les variantes de cette protéine peuvent provoquer une fibrose kystique.

Accélérer la recherche sur les maladies génétiques

Une étape clé pour traduire cette recherche est de collaborer avec la communauté scientifique. Nous avons travaillé en partenariat avec Genomics England, pour explorer comment ces prédictions pourraient aider à étudier la génétique des maladies rares. Les résultats de Genomics England Cross-Risfenférencés par Alphamissense avec des données de pathogénicité variant précédemment agrégées avec des participants humains. Leur évaluation a confirmé que nos prédictions sont précises et cohérentes, fournissant une autre référence réelle pour l’alphamissense.

Bien que nos prédictions ne soient pas conçues pour être utilisées directement dans la clinique – et doivent être interprétées avec d’autres sources de preuves – ce travail a le potentiel d’améliorer le diagnostic de troubles génétiques rares et d’aider à découvrir de nouveaux gènes pathogènes.

En fin de compte, nous espérons que l’alphamissense, ainsi que d’autres outils, permettra aux chercheurs de mieux comprendre les maladies et de développer de nouveaux traitements vitaux.

En savoir plus sur Alphamissesense:

Notes

*Au 13 mars 2024, les prédictions alphamissenses sont disponibles sous un CC par V.4 Licence, soulevant ainsi la restriction précédente de l’utilisation non commerciale. Veuillez consulter base de données publiée et Zenodo Pour plus d’informations d’accès.

Nous tenons à remercier Juanita Bawagan, Jess Valdez, Katie McAtackney, Kathryn Seager, Hollie Dobson, pour leur aide avec le texte et les chiffres. Nous sommes également reconnaissants à nos partenaires externes, Genomics England et Embl-Ebi, pour leur soutien continu. Ce travail a été fait grâce aux contributions des co-auteurs: Guido Novati, Joshua Pan, Clare Bycroft, Akvilė Žemgulytė, Taylor Applebaum, Alexander Pritzel, Lai Hong Wong, Michel Zielinski, Tobias Sargeant, Rosalia G. Schneider, Andrew W. Senior, John Jump, Dismis. Nous tenons également à remercier Kathryn Tunyasuvunakool, Rob Fergus, Eliseo Papa, David LA, Zachary Wu, Sara-Jane Dunn, Kyle R. Taylor, Natasha Latysheva, Hamish Tomlinson, Augustin Žídek, Roz oignons, Mira Lutfi, Jon Small, Mole Beck, Annette Obika, Hanna Alyssa Pierce, James Tam, Q Green, Meera Last, Tharindi Hapuarachchi et l’équipe du Grand Google Deepmind pour leur soutien, leur aide et leur rétroaction.



Source link

Related post