Erasmus Mundus Joint Master - ChEMoinformatics+ : Apprentissage profond avec SMILES

par: Abdulfatai Lawal [1]

Le système SMILES (Simplified molecular input line entry system), qui a été proposé par Weininger [1], est actuellement largement reconnu et utilisé comme une représentation standard des composés pour le traitement moderne de l’information chimique. Il est relativement compact, lisible et modifiable à la fois par les ordinateurs et les êtres humains, ce qui le rend particulièrement adapté à la création et/ou au traitement par des programmes informatiques avancés.

Le système SMILES proposé par Weininger présente quelques inconvénients, comme le fait qu’il soit propriétaire et qu’il soit basé sur la théorie de la liaison de valence (il hérite donc des imperfections de cette théorie). Malgré les inconvénients mentionnés ci-dessus, des modifications ont été apportées au système SMILES et aux algorithmes utilisés dans les applications d’apprentissage profond, notamment l’encodage de paires SMILES, l’augmentation basée sur des SMILES multiples, DeepSMILES, OpenSMILES, CurlySMILES, la chaîne de caractères intégrée à référence automatique (SELFIES), etc.

Par rapport à d’autres méthodes d’apprentissage automatique, l’apprentissage profond a une architecture beaucoup plus flexible, de sorte qu’il est possible de créer une architecture de réseau neuronal sur mesure pour un problème spécifique [2], ce qui a conduit à des performances supérieures dans des domaines tels que la reconnaissance d’images et de voix, le traitement du langage naturel, etc. Dans le domaine de la chimio-informatique, elle a connu un succès remarquable dans la prédiction de la bioactivité, la conception moléculaire de novo, la prédiction des réactions et l’analyse rétrosynthétique.

Le succès des techniques d’apprentissage profond dans le traitement du langage naturel (NLP) fait appel à des représentations moléculaires basées sur le texte et c’est peut-être pour cette raison que les modèles d’apprentissage profond basés sur le système SMILES (Simplified molecular input line entry entry system) apparaissent comme un sujet de recherche important en chémoinformatique, avec des applications déjà dans le criblage virtuel de composés chimiques et l’identification de sous-structures fonctionnelles [3] (Figure 1).

Figure 1. Strategy for applying one-dimensional CNN to SMILES linear representations of chemical compounds and the extraction of learned filters to discover the chemical motifs. [3]
Hirohara, M., Saito, Y., Koda, Y. et al. BMC Bioinformatics 19 (Suppl 19), 526 (2018). https://doi.org/10.1186/s12859-018-2523-5

Reférences:
1. D. Weininger, J. Chem. Inf. Model., 1988, 28, 1 31–36 DOI: https://doi.org/10.1021/ci00057a005

2. Chen, H., Engkvist, O., Wang, Y., Olivecrona, M. and Blaschke, T. Drug Discovery Today, 2018, 23, 6, 1241-1250, DOI: https://doi.org/10.1016/j.drudis.2018.01.039.

3. Hirohara, M., Saito, Y., Koda, Y. et al. BMC Bioinformatics 19 (Suppl 19), 526 (2018). https://doi.org/10.1186/s12859-018-2523-5.