Au cours des deux dernières années, l’apprentissage automatique a révolutionné la prédiction de la structure des protéines. Maintenant, trois articles dans les sciences décrivent une révolution similaire dans la conception des protéines.
Dans les nouveaux articles, des biologistes de la faculté de médecine de l’Université de Washington montrent que l’apprentissage automatique peut être utilisé pour créer des molécules de protéines beaucoup plus précisément et rapidement que jamais auparavant. Les scientifiques espèrent que cette percée conduira à de nombreux nouveaux vaccins, traitements, outils de séquestration du carbone et biomatériaux durables.
« Les protéines sont fondamentales en biologie, mais nous savons que toutes les protéines présentes dans chaque plante, animal et microbe représentent bien moins d’un pour cent de ce qui est possible. Avec ces nouveaux outils logiciels, les chercheurs devraient pouvoir trouver des solutions à des problèmes de longue date. défis en médecine, en énergie et en technologie », a déclaré l’auteur principal David Baker, professeur de biochimie à la faculté de médecine de l’Université de Washington et lauréat du prix Breakthrough 2021 en sciences de la vie.
Les protéines sont souvent qualifiées de « blocs de construction de la vie » car elles sont essentielles à la structure et au fonctionnement de tous les êtres vivants. Ils sont impliqués dans pratiquement tous les processus qui se déroulent à l’intérieur des cellules, y compris la croissance, la division et la réparation. Les protéines sont constituées de longues chaînes de substances chimiques appelées acides aminés. La séquence d’acides aminés dans une protéine détermine sa forme tridimensionnelle. Cette forme complexe est cruciale pour que la protéine fonctionne.
Récemment, de puissants algorithmes d’apprentissage automatique, notamment AlphaFold et RoseTTAFold, ont été formés pour prédire les formes détaillées des protéines naturelles en se basant uniquement sur leurs séquences d’acides aminés. L’apprentissage automatique est un type d’intelligence artificielle qui permet aux ordinateurs d’apprendre à partir de données sans être explicitement programmés. L’apprentissage automatique peut être utilisé pour modéliser des problèmes scientifiques complexes qui sont trop difficiles à comprendre pour les humains.
Pour aller au-delà des protéines présentes dans la nature, les membres de l’équipe de Baker ont divisé le défi de conception de protéines en trois parties et ont utilisé de nouvelles solutions logicielles pour chacune.
Tout d’abord, une nouvelle forme de protéine doit être générée. Dans un article publié le 21 juillet dans la revue les sciences, l’équipe a montré que l’intelligence artificielle peut générer de nouvelles formes de protéines de deux manières. Le premier, surnommé « hallucination », est similaire à DALL-E ou à d’autres outils d’IA génératifs qui produisent des résultats basés sur de simples invites. La seconde, appelée « repaint », est analogue à la saisie semi-automatique que l’on trouve dans les barres de recherche modernes.
Deuxièmement, pour accélérer le processus, l’équipe a conçu un nouvel algorithme pour générer des séquences d’acides aminés. En vedette dans le numéro du 15 septembre de les sciences, cet outil logiciel, appelé ProteinMPNN, s’exécute en une seconde environ. C’est plus de 200 fois plus rapide que les meilleurs logiciels précédents. Ses résultats sont supérieurs aux outils précédents et le logiciel ne nécessite pas de personnalisation experte pour fonctionner.
Les réseaux de neurones sont faciles à former si vous disposez d’une tonne de données, mais avec les protéines, nous n’avons pas autant d’exemples que nous le souhaiterions. Nous avons dû entrer et identifier quelles caractéristiques de ces molécules sont les plus importantes. C’était un peu d’essais et d’erreurs. »
Justas Dauparas, scientifique du projet, boursier postdoctoral à l’Institute of Protein Design
Troisièmement, l’équipe a utilisé AlphaFold, un outil développé par DeepMind d’Alphabet, pour évaluer de manière indépendante si les séquences d’acides aminés qu’ils ont créées étaient susceptibles de se plier dans les formes souhaitées.
« Un logiciel pour prédire les structures des protéines fait partie de la solution, mais il ne peut rien générer de nouveau par lui-même », a expliqué Dauparas.
« ProteinMPNN est à la conception de protéines ce qu’AlphaFold était à la prédiction de la structure des protéines », a ajouté Baker.
Dans un autre article paru sur les sciences Le 15 septembre, une équipe du laboratoire Baker a confirmé que la combinaison de nouveaux outils d’apprentissage automatique pourrait générer de manière fiable de nouvelles protéines qui fonctionneraient en laboratoire.
« Nous avons constaté que les protéines fabriquées avec ProteinMPNN étaient beaucoup plus susceptibles de se replier comme prévu, et nous avons pu créer des assemblages de protéines très complexes en utilisant ces méthodes », a déclaré le scientifique du projet Basile Wicky, chercheur postdoctoral à l’Institute for Protein Design.
Parmi les nouvelles protéines créées figuraient des anneaux à l’échelle nanométrique qui, selon les chercheurs, pourraient devenir des composants de nanomachines personnalisées. Des microscopes électroniques ont été utilisés pour observer les anneaux, qui ont des diamètres environ un milliard de fois plus petits qu’une graine de pavot.
« C’est le début de l’apprentissage automatique dans la conception de protéines. Dans les mois à venir, nous travaillerons à améliorer ces outils pour créer des protéines encore plus dynamiques et fonctionnelles », a déclaré Baker.
Les ressources informatiques pour ce travail ont été données par Microsoft et Amazon Web Services.
École de médecine de l’Université de Washington
Dauparas, J. et coll. (2022) Conception robuste de séquences de protéines basée sur l’apprentissage en profondeur à l’aide de ProteinMPNN. Les sciences. doi.org/10.1126/science.add2187.