Un groupe de scientifiques a développé un outil d'intelligence artificielle capable de prédire les fonctions inconnues de n'importe quelle protéine, une avancée qui pourrait révolutionner la biologie moléculaire, la médecine et la biotechnologie.
Cette innovation utilise des modèles d’apprentissage profond entraînés avec des millions de séquences protéiques et des structures tridimensionnelles connues, permettant l’identification de modèles fonctionnels auparavant invisibles pour les méthodes traditionnelles.
Les protéines sont molécules fondamentales de la vie, responsables de presque tous les processus biologiques du corps. Cependant, malgré les énormes progrès de la génomique, la fonction exacte d’une grande partie de « l’univers protéique » reste encore inconnue.
Une nouvelle utilisation de l’intelligence artificielle liée aux protéines
Une équipe dirigée par Rosa Fernández, de l'Institut de biologie évolutive (IBE), un centre commun du Conseil supérieur de la recherche scientifique et de l'Université Pompeu Fabra, et Ana Rojas, du Centre andalou de biologie du développement (CABD), un centre commun du CSIC, de la Junta de Andalucía et de l'Université Pablo de Olavide, a développé un outil basé sur l'intelligence artificielle (IA).
Ceci est capable de prédire la fonction inconnue des protéines à partir de séquences génomiques sans référence préalable, grâce à l’application de modèles linguistiques.
En quelques heures et sans formation, cet outil ouvert et gratuit a la capacité d’éclairer la fonction de n’importe quelle protéine cachée dans le « protéome sombre » (un ensemble de protéines dont la fonction est encore inconnue).
Grâce à ce nouvel outil, appelé FANTASIA (Functional ANnoTAtion based on embedding space SImilArity), l’équipe de l’IBE et du CABD a analysé près de 1 000 génomes animaux avec une précision proche de 100 % et a attribué la fonction de 24 millions de gènes codant pour des protéines du protéome sombre.
Prédiction génétique
FANTASIA est capable de travailler avec le Big Data pour analyser un génome animal complet en quelques heures sur un ordinateur ordinaire, ou en 30 minutes sur un équipement spécialisé.
Cet outil est capable de prédire la fonction inconnue des protéines à partir de séquences génomiques sans référence préalable, en appliquant des modèles linguistiques.
Aujourd’hui, on suppose que nous pouvons synthétiser de l’insuline pour traiter le diabète, mais cela ne serait pas possible sans comprendre la fonction de cette protéine essentielle à la vie.
Comme l’insuline, chaque protéine remplit une fonction et les gènes sont responsables de leur codage, donnant aux cellules la possibilité de les exprimer encore et encore par l’intermédiaire de leur machinerie.
Le génome de tout organisme abrite la formule permettant de synthétiser n’importe laquelle de ses protéines, c’est-à-dire son protéome. Cependant, nous ne connaissons pas la fonction de nombreux gènes qui composent l’arbre de vie.
Chez l’homme, la fonction de la plupart des protéines est déjà connue – environ 80 à 90 % – mais chez d’autres mammifères, ce chiffre diminue et chez les invertébrés, la fonction de plus de la moitié des protéines reste un mystère.
Bien qu'il soit possible de lire les milliards de lettres de leur séquence d'ADN codante, la fonction biologique de beaucoup de ces protéines reste cachée, et avec cela des indices fondamentaux sur l'évolution des espèces, leur métabolisme ou encore leur santé s'échappent.
À ce jour, le principal moyen de prédire leur fonction consistait à comparer les gènes qui les codent avec d’autres gènes similaires dans leur séquence génétique, appelés homologues, une méthode limitée qui laisse de côté une bonne partie de cet univers encore à explorer.
Le protéome sombre de l'arbre de vie
Au cours de la dernière décennie, des projets internationaux de premier plan tels que l'Atlas européen du génome de référence (ERGA), qui fait partie du projet Earth BioGenome (EBP), ont réussi à générer des séquences génomiques de référence de milliers d'animaux pour la recherche sur la biodiversité de la planète.
Mais accéder à la séquence qui code pour une protéine ne signifie pas comprendre ce qu’elle fait. Pour révéler la fonction de ces protéines, les méthodologies traditionnelles (non basées sur l’IA) comparent les gènes qui les codent avec des séquences d’ADN similaires, appelées gènes homologues.
De cette manière, un nouveau protéome est traduit sur la base de la similitude avec les gènes codant pour d’autres protéines déjà connues. Cependant, une grande majorité de protéines manquent d’homologues de référence et restent cachées dans la terra ignota du protéome sombre.
« Comprendre la fonction de ces gènes grâce à ce nouvel outil ouvre une nouvelle fenêtre sur la connaissance de la biologie animale. Il permettra de comprendre comment naissent les innovations évolutives et quel rôle jouent des protéines inconnues dans la diversité et l'adaptation des espèces », expliquent-ils.
Dans ce sens, Rojas, qui co-dirige l’étude du CABD, souligne que « l’utilisation de modèles linguistiques basés sur l’intelligence artificielle permet d’aller au-delà de la simple comparaison par homologie ».
« Ces modèles apprennent directement des séquences génétiques et sont capables de déduire la fonction potentielle de gènes sans équivalent connu, ouvrant ainsi de nouvelles possibilités pour explorer le protéome sombre. »
Grâce aux modèles linguistiques, un type spécifique d’application de l’IA, il est pour la première fois possible de prédire la fonction d’une protéine sans avoir à comparer la séquence de ses gènes codants avec celle d’autres gènes connus.
Au lieu de rechercher des similitudes directes, ces méthodes traduisent les séquences d’ADN en fragments et les analysent syntaxiquement, comme s’il s’agissait de phrases dans une langue.
Chaque fragment de la séquence reçoit une valeur numérique et, avec elle, le système construit sa propre grammaire pour anticiper ce qui manque, de la même manière qu'un traitement de texte complète des phrases.
Ce ChatGPT de protéines apprend de milliers d'exemples déjà étudiés, identifiant ce que fait chaque protéine, à quel processus biologique elle participe et où dans la cellule elle se trouve (ce que les scientifiques appellent les termes GO, de l'anglais Gene Ontology).
Grâce à ces informations, chaque protéine est convertie en un vecteur numérique, une sorte d’empreinte mathématique qui résume ses caractéristiques. Grâce à ces vecteurs, FANTASIA peut analyser de nouvelles séquences d'ADN et prédire leur fonction avec une grande précision, ouvrant ainsi la porte à des découvertes qui semblaient auparavant inaccessibles.
Et cela avec des milliers de protéines à la fois. « FANTASIA est un logiciel ouvert et facile à utiliser pour les utilisateurs sans expérience en programmation. Il comprend des modèles déjà formés, il adhère donc aux principes de durabilité et peut être utilisé sans avoir besoin d'accéder à des superordinateurs », commente Gemma Martínez Redondo, doctorante du BIE et première auteure de l'étude.
Faire la lumière sur la « biologie sombre » et les fonctions des protéines
Découvrir les fonctions remplies par les protéines d'un organisme est crucial pour décrypter l'évolution des génomes et la complexité de la vie. Ce nouveau modèle de langage pourrait donc enrichir les connaissances de la communauté scientifique dans ce domaine, mais aussi dans l'étude de la biodiversité et de la santé mondiale.
« FANTASIA est un générateur d'hypothèses : cet outil éclaire l'obscurité, car il est impensable d'étudier tous les gènes un par un dans chaque organisme. Désormais, il sera plus facile d'orienter les efforts pour étudier en profondeur la fonction des protéines. Cela peut être très utile dans le domaine pharmaceutique. »
L'étude a déjà révélé des protéines cachées provenant des tardigrades, des cténophores et des micrognathozoaires, trois phylums d'invertébrés peu connus dont le protéome reste largement caché.
Grâce à ces vecteurs, FANTASIA peut analyser de nouvelles séquences d'ADN et prédire leur fonction avec une grande précision, ouvrant ainsi la porte à des découvertes qui semblaient auparavant inaccessibles.
« En biologie évolutive, le changement, la perte ou le gain de fonction protéique dans différents organismes raconte l'histoire de l'évolution de leur phylum ou de leur espèce. Cela peut nous dire comment un organisme s'est adapté à un nouvel environnement, de quoi il s'est nourri ou pourquoi il a cessé d'avoir besoin de certains outils dans son génome. »
L'outil d'IA développé est disponible pour n'importe quel groupe de recherche dans le monde, avec le potentiel d'éclairer la recherche génomique et protéomique dans pratiquement tous les domaines d'application.
« Nous savons que d'autres groupes de recherche internationaux utilisent déjà FANTASIA dans leurs recherches, et nous constatons qu'il ne fonctionne pas seulement chez les animaux, mais aussi chez les plantes, les virus, les champignons ou les protistes. Le potentiel de découverte de nouveaux gènes qui révolutionnent la biotechnologie, la médecine ou la conservation de la biodiversité n'a aucune limite », conclut Fernández.
Bien que les premiers résultats soient prometteurs, les scientifiques préviennent que l’IA ne remplace pas le travail expérimental. Les prédictions doivent être validé en laboratoire pour confirmer sa véracité et éviter des interprétations erronées.
Cette avancée marque néanmoins une étape décisive vers une la biologie basée sur les données, dans laquelle l'intelligence artificielle devient une alliée essentielle pour déchiffrer les mystères de la vie moléculaire et accélérer l'innovation scientifique à l'échelle mondiale. Continuer la lecture sur ECOticias.com



0 réponse à “Un outil d’intelligence artificielle prédit les fonctions inconnues de n’importe quelle protéine”