Erasmus Mundus Joint Master - ChEMoinformatics+ : Deep Docking: une brève introduction

par : Dina Khasanova Piste "Chimio-informatique et informatique des matériaux", Bar Ilan-Strasbourg, 2022

La découverte de médicaments est un processus long et rigoureux. Il faut beaucoup de temps pour faire passer une molécule "de la paillasse au chevet du patient". Le criblage virtuel peut considérablement améliorer la découverte de médicaments, mais les méthodes d’amarrage moléculaire conventionnelles restent coûteuses en termes de ressources de calcul, tandis que la taille des chimiothèques disponibles augmente de façon exponentielle. Afin de relever ce défi, de nouveles approches ont été développées. L’une d’entre elles est le Deep Docking, qui permet d’arrimer des milliards de structures moléculaires sans perte significative de candidats médicaments potentiels [1].
Le protocole comprend huit étapes consécutives : (1) préparation de la bibliothèque moléculaire, (2) préparation du récepteur, (3) échantillonnage aléatoire d’une chimiothèque, (4) préparation des conformères des molécules criblées, (5) amarrage moléculaire, (6) entraînement d’un modèle statistique, (7) inférence du modèle sur de nouvelles structures chimiques et (8) reprendre au point (3) en biaisant l’échantillonnage sur les composés les plus actifs. La procédure peut être entièrement automatisée dans un centre de calcul intensif.

Plus en détails (Figure 1):
1. Pour chaque molécule d’une chimiothèque de grande taille, des descripteurs moléculaires sont calculées.
2. Les structures PDB brutes sont préparées, tous les atomes sont paramétrés, et des grilles pré-calculant des interactions non-liées sont générées.
3. Un jeu de données est échantillonné aléatoirement à partir de la chimiothèque.
4. Chaque structure chimique est préparée: les ordres de liaison, les charges formelles et les états tautomériques sont vérifiés.
5. Les molécules préparées sont positionnées dans la cible d’intérêt à l’aide d’un protocole d’amarrage moléculaire conventionnel. Celles qui ont reçu les meilleurs scores sont les exemples "actifs" et les autres sont les exemples "inactifs".
6. Un modèle QSAR est optimisé, entraîné et validé sur le jeu de données pour discriminer entre les exemples "actifs" et "inactifs" en utilisant les descripteurs moléculaires.
7. Le modèle QSAR résultant est utilisé pour catégoriser toutes les molécules en exemples "positifs" et "négatifs".
8. L’algorithme reprend au point (3), avec un jeu de données auquel sont ajoutés des composés préférentiellement "actifs" et une redéfinition un peu plus stricte des catégories "actifs" et "inactifs".

**DD_pipeline**

Figure 1: Workflow of the DD pipeline adapted from ref. [2]

Gentile, F., Agrawal, V., Hsing, M. et al. Deep Docking: A Deep Learning Platform for Augmentation of Structure Based Drug Discovery. ACS Central Science 6, 939-949 (2020). https://doi.org/10.1021/acscentsci.0c00229

Les étapes sont répétées un nombre prédéfini de fois. Les composés catégorisés "actifs" sont alors les hits du criblage virtuel [2]. Le jeu de données utilisé pour construire le modèle QSAR évolue à chaque itération, et renforce les performances du modèle QSAR: à chaque itération il est plus prédictifs comme le suggèrent les valeurs d’enrichissement mesurées dans les jeux de données de test.

Le projet est disponible Open Source sur la plateforme GitHub et dispose d’une interface utilisateur graphique, DD-GUI, qui simplifie l’utilisation de cet outil. Il peut être installé sur les plateformes Linux, Mac et Windows [3].

by: Dina Khasanova Track «Chemoinformatics and Materials Informatics», Bar Ilan-Strasbourg, 2022

Drug discovery is an extensive and rigorous process. It takes a long time to bring a molecule “from a bench to a bedside”. Virtual screening can significantly enhance drug discovery, but conventional docking is too computationally expensive and slow, while the libraries of available chemicals are growing exponentially. In order to address this challenge some approaches were developed. One of them is Deep Docking, which suits for docking billions of molecular structures without significant loss of potential drug candidates [1].
The protocol includes eight consecutive stages: (1) molecular library preparation, (2) receptor preparation, (3) random sampling of a library, (4) ligand preparation, (5) molecular docking, (6) model training, (7) model inference and (8) the residual docking. The procedure can be completely automated on computing clusters.
Let’s take a closer look at listed stages.
1. For each entry of a Big Base Morgan fingerprints with a size of 1024 bits and a radius of 2 are computed using the RDKit package.
2. The raw PDB structures are converted into all-atom, fully prepared proteins and Receptor Grids are generated.
3. A reasonably-sized training subset is randomly sampled from the Big Base in the first iteration and will be augmented later. The same procedure is applied to validation and test sets.
4. Each ligand is prepared by using tools to fix the bond orders and formal charges, prepare ionization and tautomeric states.
5. Prepared ligands are docked into the target of interest using a conventional docking protocol.
6. The generated docking scores of the training compounds are then related to their 2D molecular descriptors through a DL model. The docking score cutoff is used to divide training compounds into virtual hits and nonhits.
7. The resulting QSAR deep model (trained on empirical docking scores) is then used to predict docking outcomes of yet unprocessed entries of the Big Base.
8. A predefined number of predicted virtual hits are then randomly sampled, docked and used for the initial sets augmentation.
Steps are repeated iteratively until a predefined number of iterations is reached, or processed entries of a Big Base are converged [2]. Training sets are effectively improved after each iteration, as indicated by the mean docking scores of samples added to training that shifted toward more negative (favorable) values after each round of modeling. The enrichment values for the top molecules in the test sets ranked by the DNN models are increased after each iteration, which also suggests improvement of model’s performance.

There is DD-GUI - the graphical user interface for such a deep learning approach. The DD-GUI allows in an intuitive way to track the progress and analyze the outcomes of a drug discovery project. DD-GUI is freely available on GitHub and can be installed for Linux, Mac and Windows platforms [3].

References
[1] Gentile, F., Yaacoub, J.C., Gleave, J. et al. Artificial intelligence–enabled virtual screening of ultra-large chemical libraries with deep docking. Nat Protoc 17, 672–697 (2022). https://doi.org/10.1038/s41596-021-00659-2
[2] Gentile, F., Agrawal, V., Hsing, M. et al. Deep Docking: A Deep Learning Platform for Augmentation of Structure Based Drug Discovery. ACS Central Science 6, 939-949 (2020). https://doi.org/10.1021/acscentsci.0c00229
[3] Yaacoub, J.C., Gleave, J., Gentile, F. et al. DD-GUI: A graphical user interface for deep learning-accelerated virtual screening of large chemical libraries (Deep Docking). Bioinformatics 38, 1146-1148 (2022). https://doi.org/10.1093/bioinformatics/btab771