by: Iryna Boiko Track « In Silico Drug Design » Strasbourg-Milan-Paris, 2023
L’année dernière, j’ai eu la chance d’assister à une conférence de Bartosz A. Grzybowski, un scientifique polonais, qui a présenté les travaux de son groupe sur un outil avancé de planification de synthèse - Chematica, aujourd’hui commercialisé par Merck KGaA sous le nom de Synthia.
Les voies de synthèse conçues par Chematica ont atteint un niveau tel qu’il est impossible de les distinguer de celles créées par l’homme, et parfois même de les surpasser en termes d’efficacité et d’élégance. Plusieurs synthèses complexes de produits naturels proposées par l’algorithme ont été réalisées avec succès en laboratoire[1].
Le succès de Chematica peut être attribué à la combinaison de techniques d’apprentissage automatique et d’une approche basée sur l’expertise. Pendant près de dix ans, les auteurs ont identifié manuellement environ 100 000 types de réaction. La mise en œuvre du logiciel a pris près de 20 ans depuis sa conception initiale. Des algorithmes d’apprentissage automatique ont été utilisés pour les réactions les plus courantes, pour lesquelles de grandes quantités de données sont disponibles. Les différentes réactivités croisées et les groupes incompatibles ont également été encodés dans chaque règle de réaction. Des calculs de chimie quantique et de mécanique moléculaire ont parfois été incorporés. Ce modèle hybride a démontré des performances supérieures à celles des logiciels purement basés sur l’expertise ou sur l’apprentissage automatique[2,3].
Chematica se distingue par ses fonctions de score, qui permettent de trouver un chemin dans le vastes réseaux d’hypothèses possibles de synthèse. À chaque étape, le logiciel doit sélectionner la voie de rétrosynthèse la plus accessible pour éviter une explosion combinatoire (figure 1).
Les fonctions de score évaluent à la fois les réactions et l’ensemble des substrats générés. La fonction de score des produits chimiques (CSF) tient compte de paramètres tels que le nombre de stéréocentres, d’anneaux et la longueur des chaînes SMILES de chaque substrat afin d’éviter les synthons les plus grands et complexes. La fonction de score des réactions (RSF) évalue approximativement la difficulté d’une opération de synthèse en fonction des groupes fonctionnels incompatibles ou fragiles, des problèmes de sélectivité et des besoins de protection de fonctions chimiques. Ainsi, les paramètres des voies de synthèses les moins intéressantes, tels que configurés par l’utilisateur, en pénalisent les scores. Le RSF et le CSF sont additionnés et la voie ayant le score le plus bas est sélectionnée[2].
Toutefois, se concentrer sur une étape à la fois peut conduire à une impasse pour la recherche d’une voie de synthèse. Aussi, le logiciel Chematica explore-t-il simultanément l’arborescence des voies de synthèse en largeur et en profondeur. Il prend également en compte les réactions en tandem et les "combinaisons tactiques", c’est-à-dire les séquences en deux étapes qui augmentent initialement la complexité structurelle mais permettent une simplification ultérieure. Notamment, Chematica n’est pas biaisé par les réactions communément présentes dans la littérature, ce qui lui permet d’attribuer des priorité élevées à des réactions spécifiques ou nouvelles, conduisant à des solutions plus élégantes par rapport aux logiciels purement axés sur le l’apprentissage automatique [2,3].
Grzybowski se pique d’enseigner à l’ordinateur les règles de la chimie. Cela signifie-t-il que les chimistes organiciens perdront bientôt leur emploi ? Rien n’est moins sûr... mais les chémoinformaticiens seront très demandés.
[1] B. Mikulak-Klucznik, P. Gołębiowska, A. A. Bayly, O. Popik, T. Klucznik, S. Szymkuć, E. P. Gajewska, P. Dittwald, O. Staszewska-Krajewska, W. Beker, T. Badowski, K. A. Scheidt, K. Molga, J. Mlynarski, M. Mrksich, B. A. Grzybowski, Nature 2020, 588, 83–88 (https://doi.org/10.1038/s41586-020-2855-y).
[2] B. A. Grzybowski, T. Badowski, K. Molga, S. Szymkuć, WIREs Comput. Mol. Sci. 2023, 13:e1630 (https://doi.org/10.1002/wcms.1630).
[3] K. Molga, S. Szymkuć, B. A. Grzybowski, Acc. Chem. Res. 2021, 54, 1094–1106 (https://doi.org/10.1021/acs.accounts.0c00714).