par: Sophiya DYMURA [1]
La détermination de la structure des protéines est une étape importante au début d’un long processus de découverte de médicaments. Bien que la banque de données sur les protéines contienne une grande quantité de structures 3D évaluées, une quantité énorme de molécules cibles potentielles n’est toujours pas visualisée. Malgré les réalisations majeures dans ce domaine, la demande de modèles protéiques rapides et de haute qualité n’a pas encore été satisfaite.
Au cours de la dernière année d’études à l’université, j’ai découvert un projet brillant dans le domaine de la bioinformatique structurelle appelé AlphaFold2. Cette approche est le résultat du travail de fond de plusieurs dizaines de personnes de DeepMind et de scientifiques de l’Institut européen de bioinformatique. En conséquence, deux publications quasi simultanées ont été présentées au monde scientifique. La première traite de l’architecture, de l’efficacité et de la précision de l’outil de prédiction de la structure des protéines [1]. L’autre décrit en détail l’application de l’outil sur le protéome humain [2].
AlphaFold2 peut effectuer la prédiction avec ou sans modèle. Le gabarit est une protéine de structure connue qui a un coefficient d’identité élevé avec une protéine de structure inconnue. Après avoir recueilli les données à partir de sources ouvertes comme la PDB et les alignements multiples en cas d’absence de modèle et l’alignement par paire en cas de présence, l’ensemble préparé passe par un réseau neuronal graphique. Au premier stade, appelé Evoformer, les informations sur la relation entre les acides aminés sont traitées attentivement par le GNN. La deuxième partie transforme les vecteurs en modèles 3D réels de la séquence protéique [1].
En conséquence, nous obtenons une structure qui peut combler le manque d’informations dans le domaine de la biologie structurelle. Il est crucial de disposer de telles données pour le développement de médicaments et ce projet constitue un grand pas en avant dans la résolution du problème dit du repliement des protéines. Les auteurs ont calculé les structures de 98,5 % du protéome humain. Au moment de la publication, seul un tiers des séquences avait une structure établie expérimentalement.
En utilisant ces protéines, les auteurs ont démontré les résultats incroyables de leur travail [2].
AlphaFold2 a été largement discuté par les scientifiques. Comme tout modèle, il a des limites, également mentionnées par les auteurs. Par exemple, les structures des protéines qui sont impliquées dans des ensembles supramoléculaires plus complexes ne peuvent pas être prédites par cet outil [2].
De même, si la fonction de la protéine est exprimée par des changements de conformation, il est donc très important de déterminer les structures actives et inactives, AlphaFold2 ne sera pas utile. De plus, l’application des structures prédites doit être utilisée avec précaution, car la modélisation des sites de liaison n’est pas aussi précise. Dans 10% des cas, ils peuvent ne pas être prédits du tout. Le dernier inconvénient correspond à la complexité d’utilisation, les données d’entraînement pour le modèle occupent 1 téraoctet d’espace.
Après tout, AlphaFold2 combiné à une approche expérimentale comme CryoEM est un outil extrêmement puissant [3]. Par exemple, il indique les données expérimentales incorrectes. Cependant, l’application de toute méthode in silico nécessite une validation pratique.
Références :
1. Jumper, J., Evans, R., Pritzel, A. et al. Highly accurate protein structure prediction with AlphaFold. Nature 596, 583–589 (2021). https://doi.org/10.1038/s41586-021-03819-2
2. Tunyasuvunakool, K., Adler, J., Wu, Z. et al. Highly accurate protein structure prediction for the human proteome. Nature 596, 590–596 (2021). https://doi.org/10.1038/s41586-021-03828-1
3. Corey F. Hryc, Matthew L. Baker. AlphaFold2 and CryoEM : Revisiting CryoEM modeling in near-atomic resolution density maps. iScience 25, 7 (2022).
https://doi.org/10.1016/j.isci.2022.104496