par: Xinyue Gao, Parcours « In Silico Drug Design », Strasbourg-Milan-Paris, 2022
Les bases de données chimiques sont devenues des ressources indispensables à la recherche dans le domaine pharmaceutique, les biotechnologies et les sciences des matériaux. En regroupant de vastes collections de composés et les données associées, ces bases de données permettent aux scientifiques d’explorer efficacement l’espace chimique afin d’identifier de nouveaux médicaments, d’optimiser les propriétés des matériaux et d’étudier des interactions moléculaires fondamentales.
Parmi les référentiels chimiques disponibles, ZINC20 se distingue par son engagement en faveur de l’exhaustivité, l’offre de capacités de recherche avancées et l’accessibilité. La vaste collection de ZINC20, qui compte plus de 1,4 milliard de composés, offre aux chercheurs un point de départ sans précédent pour la découverte de nouvelles petites molécules biologiquement actives reposant sur le criblage de diverses bibliothèques de composés.
Toutefois, la taille même de la collection pose des défis informatiques considérables. Le coût des recherches par similarité basées sur les empreintes moléculaires évolue de manière linéaire avec la taille des bases de données, mais la taille des bases de données augmente actuellement de plusieurs ordres de grandeur. L’approche "feature-tree" peut explorer rapidement d’immenses espaces chimiques tangibles, mais au prix d’une représentation moléculaire peut-être moins expressive.
ZINC20 fonctionne sur compromis qui prend la forme de l’algorithme SmallWorld: un algorithme qui indexe les graphes moléculaires explicites pour accélérer les calculs de similarité. En calculant au préalable des graphes de molécules organiques réputés synthétiquement accessibles, SmallWorld peut construit un graphe d’interrogation qui est rapide à parcourir pour identifier les voisins les plus proches dans l’espace de distance d’édition du graphe. Ceci permet de conserver tous les détails structuraux tout en permettant des recherches sur > 100 milliards de composés en moins d’une seconde.
En complément de SmallWorld, ZINC20 intègre également Arthor, une boîte à outils personnalisée pour la recherche ultra rapide de sous-structures et de motifs structuraux chimiques. Arthor représente les molécules dans un format binaire compact optimisé pour les requêtes de type expressions régulières. En répartissant les calculs sur un cluster d’ordinateurs, Arthor peut rechercher des motifs moléculaires complexes en quelques secondes seulement.
Ces innovations permettent à ZINC20 de faire de l’exploration de l’espace chimique une expérience véritablement interactive. Les chercheurs peuvent rapidement récupérer des analogues en réponse à des données biologiques, explorer de manière interactive des hypothèses de structure-activité et trouver plus simplement les fournisseurs des composés à tester. Les flux de travail de criblage virtuel deviennent également plus rapides et plus complets.
Toutefois, les utilisateurs doivent savoir que ZINC20 se concentre sur le contenu disponible dans le commerce. Ainsi, bien que ZINC20 couvre des milliards de composés, il peut manquer des molécules publiques ou peu documentées. L’intégration de bases de données supplémentaires telles que ChEMBL, DrugBank et PubChem peut aider à combler ces lacunes.
ZINC20 facilite l’interopérabilité entre bases de données grâce à une série d’API web. Les utilisateurs peuvent accéder aux composés, aux sous-structures, aux calculs de similarité et à d’autres éléments de manière programmatique. La base de données est téléchargeable ce qui autorise la création de processus de traitement des données personnalisés sur une installation locale.
ZINC20 établit également de bonnes pratiques, accordant une attention rigoureuse à la qualité et à la normalisation des données. Les composés sont régulièrement mis à jour et annotés avec des données d’achat pour simplifier l’acquisition. Les structures et les propriétés physico-chimiques calculées sont mises à jour régulièrement. Et le retour d’expérience de la communauté est utilsié pour améliorer ZINC20.
Cet attention portée à la communauté incarne la promesse de bases de données chimiques ouvertes : démocratiser l’accès à l’information pour favoriser une recherche plus inclusive. En mettant des outils robustes à la disposition de tous les scientifiques sans restriction, des ressources telles que ZINC20 permettent des recherches qui seraient autrement compliquées. De plus, la possibilité de réaliser le criblage virtuel de grands catalogues de produits fabriqués à la demande permet de poursuivre des hypothèses risquées, mais de grand potentiel, reposant sur une chimie nouvelle.
En fin de compte, les innovations techniques de ZINC20 et son engagement en faveur de l’accessibilité ouvrent une nouvelle ère pour la conception de médicaments assistée par ordinateur. Les ensembles de données continuant à croître dans le régime des "big data", les approches les plus avancées en apprentissage automatique deviennent essentielles. Les ressources telles que ZINC20, qui facilitent l’accès aux informations concernant des milliards de composés, ne feront que gagner en valeur stratégique. La puissance de calcul rattrapant les volumes de données, des bases de données ouvertes complètes et de haute qualité permettront une nouvelle vague de découvertes de thérapies améliorant la santé et la longévité dans le monde entier.
References:
Irwin, John J., Khanh G. Tang, Jennifer Young, Chinzorig Dandarchuluun, Benjamin R. Wong, Munkhzul Khurelbaatar, Yurii S. Moroz, John Mayfield, and Roger A. Sayle. “ZINC20—A Free Ultralarge-Scale Chemical Database for Ligand Discovery.” Journal of Chemical Information and Modeling 60, no. 12 (December 2020): 6065–73. https://doi.org/10.1021/acs.jcim.0c00675.
Nicola, George, Tiqing Liu, and Michael K. Gilson. “Public Domain Databases for Medicinal Chemistry.” Journal of Medicinal Chemistry 55, no. 16 (August 23, 2012): 6987–7002. https://doi.org/10.1021/jm300501t.