(R) Présentation de SNAC-DB: une nouvelle ressource open source pour l’anticorps et la modélisation Nanobody® VHH – Antigen

 (R) Présentation de SNAC-DB: une nouvelle ressource open source pour l’anticorps et la modélisation Nanobody® VHH – Antigen


Prédire les complexes anticorps et Nanobody® VHH-Antigen restent un écart notable dans les modèles d’IA actuels, limitant leur utilité dans la découverte de médicaments. Nous présentons Snac-dbune base de données et un pipeline prêts pour l’apprentissage automatique développés par des biologistes structurels et des chercheurs ML pour relever ce défi.

Les caractéristiques clés de SNAC-DB comprennent:

· Couverture élargie: 32% plus de diversité structurelle que Sabdab, capturant des assemblages négligés tels que les anticorps / nanobodies comme des antigènes, des épitopes multi-chaînes complets et des contacts cristallins CDR faibles.

· Données conviviales ML: Les fichiers PDB / MMCIF nettoyés, les tableaux Numpy ATOM37 et les métadonnées CSV unifiées pour éliminer les obstacles de prétraitement.

· Contrôle de redondance transparente: Clustering Foldseek multi-threshold pour la pondération des échantillons de principe, garantissant que chaque structure expérimentale contribue.

· Benchmark rigoureux: Un ensemble de tests hors échantillon comprenant des entrées de PDB publiques après le 30 mai 2024 (divulgué) et des complexes thérapeutiques confidentiels.

En utilisant cette référence, nous avons évalué six modèles principaux (Alphafold2.3 – Multimer, Boltz-2, Boltz-1x, Chai-1, Diffdock-PP, Geodock) et avons constaté que les taux de réussite dépassent rarement 25%, les métriques de confiance intégrées et le classement des prédictions mis à l’origine, et toutes les luttes avec de nouvelles cibles et des poses de liaison.

Nous avons présenté ce travail à l’atelier de la Quarante-deuxième Conférence internationale sur l’apprentissage automatique (ICML 2025) sur Dataworld: Unifier les cadres de conservation des données dans les domaines (https://dataworldicml2025.github.io/) à Vancouver.

· Papier: https://www.researchgate.net/publication/393900649_snac-db_the_hichhiker’s_guide_to_building_better_predictive_models_of_antibody_nanobody_r_vhh-astigen_complexes / https://openreview.net/forum?id=68dcipdahk

· Ensemble de données: https://zenodo.org/records/16226208

· Code: https://github.com/sanofi-public/snac-db

Nous espérons que SNAC-DB accélérera le développement et l’évaluation de modèles plus précis de prédiction complexe d’anticorps

https://preview.redd.it/a0d42seuvqff1.png?width=3456&format=png&auto=webp&s=e38ea120357174191b8b5cbb707979cde0ff498a

soumis par / u / playa_aikido
(lien) (Commentaires)



Source link

Related post