(R) Protéines ambiantes: entraînement des modèles de diffusion sur des structures de faible qualité

TLDR: l’état de la technologie entraîne une génération de structure des protéines en utilisant des prédictions alphafold avec un faible score PLDDT comme "de mauvaise qualité" structures. Résumé: Nous présentons la diffusion des protéines ambiantes, un cadre pour la formation de modèles de diffusion de protéines qui génère des structures avec une diversité et une qualité sans précédent. Les modèles génératifs de pointe sont formés sur des structures dérivées de calcul de l’alphafold2 (AF), car les structures déterminées expérimentalement sont relativement rares. Les modèles résultants sont donc limités par la qualité des ensembles de données synthétiques. Étant donné que la précision des prédictions AF se dégrade avec l’augmentation de la longueur et de la complexité des protéines, la génération de novo de protéines longues et complexes reste difficile. La diffusion des protéines ambiantes surmonte ce problème en traitant les structures AF de faible confiance en tant que données corrompues. Plutôt que de simplement filtrer les structures AF de basse qualité, notre méthode ajuste l’objectif de diffusion pour chaque structure en fonction de son niveau de corruption, permettant au modèle d’apprendre des structures de haute et de faible qualité. Empiriquement, la diffusion des protéines ambiantes donne des améliorations majeures: sur les protéines avec 700 résidus, la diversité augmente de 45% à 86% par rapport à l’état de l’état précédent et la conceptabilité s’améliore de 68% à 86%. Nous mettrons tous nos code, modèles et ensembles de données disponibles sous le référentiel suivant: https://github.com/jozhang97/ambient-proteins. URL du papier: https://www.biorxiv.org/content/10.1101/2025.07.03.663105v1 Fil de discussion Twitter: https://x.com/giannis_daras/status/1942272696915517828 soumis par / u / constante_club_9926 |