Autour de l'informatique : réinventer la biologie

Un nouvel « Entretien autour de l’informatique » : Serge Abiteboul et Claire Mathieu interviewent Alessandra Carbone, professeure au département d’informatique de l'université Pierre et Marie Curie. Alessandra dirige le laboratoire de biologie computationnelle et quantitative, qui étudie le fonctionnement et l’évolution des systèmes biologiques. Elle nous parle de bioinformatique. Cet article est publié en collaboration avec le Blog Binaire.

Binaire : comment devient-on bioinformaticienne ?

Alessandra Carbone : j’ai suivi des études en informatique et mathématiques. Je travaillais sur des problèmes de logique mathématique et complexité d’algorithmes, avec un regard à la fois combinatoire et géométrique. Ce qui m’intéressait alors était de trouver des « langages » nouveaux pour pouvoir reformuler des questions de théorie de la complexité. C’est en partie pour cette raison que j’ai commencé à suivre des séminaires de biologie, et que j’ai été attirée par les structures moléculaires. J’ai découvert tout d’abord le monde de l’ADN. Le codage de l’ADN pose des problèmes algorithmiques passionnants.

Protéine avec ses sites de liaison (jaune) à deux partenaires (bleu) Binaire, CC BY

Tes premiers travaux portaient sur la construction de ces structures complexes ?

AC : Mes premiers travaux à l’interface avec la biologie portaient sur la construction de structures d’ADN en trois dimensions, notamment en collaboration avec Ned Seeman, le père des nanotechnologies ADN. Il s’agissait d’un travail théorique, pionnier, qui a été suivi de premières expériences en laboratoire 10 ans après ! Nous avons imaginé disposer d’une sorte de Lego qui, à partir de brins d’ADN interagissant entre eux, nous permettrait de programmer la construction de structures moléculaires tridimensionnelles complexes avec des formes et des propriétés spécifiques.

Il faut imaginer des milliers de molécules d’ADN différentes qui se retrouvent ensemble et entrent en compétition pour s’assembler entre elles. Si on souhaite qu’elles s’assemblent pour former par exemple des « feuilles » ou pavages réguliers, éventuellement très grands et possiblement infinis, on doit éviter de leur donner la possibilité de s’assembler de manière incorrecte. « Éviter l’erreur » devient le but de la conception de ces molécules d’ADN. La pensée informatique et algorithmique rentre en jeu dans la conception de ces molécules d’ADN (dans la programmation des mots composés des lettres ATGC qu’elles décrivent) et des structures moléculaires (dans la programmation de leurs formes géométriques) que l’on souhaite obtenir après assemblage.

Pour construire des structures 3D, l’idée est de procéder par couches successives. C’est le même principe que les imprimantes 3D d’aujourd’hui, où l’objet est construit en programmant les différentes couches du solide à produire. On commence par un pavage 2D qui peut être, de façon contrôlée, augmenté par des couches ultérieures de pavés de façon programmable. Ce qui nous plaisait, c’était d’intervenir de façon contrôlée, pour programmer et reprogrammer les pavés, et construire une structure 3D complexe qui pouvait évoluer pendant le processus de construction. Pour faire cela, nous avons utilisé des blocs de base, des briques Lego, qui peuvent avoir deux « états », c’est-à-dire se retrouver dans deux formes physiques différentes. Ces briques sont des molécules programmables par des brins d’ADN qui interagissent avec la molécule et la forcent à changer d’état. Elles ont été réalisées dans le laboratoire de Ned Seeman.

Pavage d’ADN (microscopie à force atomique) Binaire, CC BY

A quoi est-ce que de telles structures ADN pourraient servir ?

AC : on peut imaginer qu’elles puissent être utilisées pour créer des nano-objets à recouvrir avec des matériaux résistants ou ayant des propriétés chimiques particulières. Un contrôle précis sur l’assemblage ADN et donc sur les formes géométriques produites à des échelles nanoscopiques pourrait être utilisé pour rejoindre le monde de l’infiniment petit avec la même précision que l’on a dans notre monde macroscopique. Des nombreux labos, en France et à l’étranger, travaillent maintenant sur ce sujet et sur des thématiques proches. Le prix Nobel de chimie de cette année a été attribué à Jean-Pierre Sauvage, de Strasbourg, pour ses travaux sur les machines moléculaires,. On ne sait pas trop où on arrivera. Aujourd’hui, on construit des petites boîtes d’ADN contenant des médicaments dont l’ouverture peut être contrôlée.

« Contrôler », c’est un mot essentiel ?

AC : ce mot rentre assez difficilement dans le vocabulaire des biologistes expérimentateurs. En biologie, on observe les phénomènes naturels, on les expliquent. Nous aimerions comprendre comment les contrôler. L’idée de perturber les systèmes, de le modifier pour en observer le mauvais fonctionnement est très présente en génétique, mais ce que nous souhaiterions faire c’est comprendre comment aller au delà de mutations dirigées pour induire le système à réaliser une fonction voulue. Nous agissons sur le code de la molécule d’ADN pour réussir à ce que, géométriquement ou chimiquement, elle se comporte de manière spécifique, pour modifier son comportement et son assemblage.

Les chimistes mélangent des produits chimiques pour avoir, par exemple, des explosifs. Ce qui est différent ici c’est que vous « programmez » ces transformations ?

AC : les informaticiens ont construit des langages formels pour réussir à comprendre le genre d’interaction qu’on peut envisager entre des molécules différentes. Il s’agit de langages de programmation basés sur des opérations qui décrivent le comportement de molécules interagissantes. Le mouvement et les interactions des molécules qui ont lieu au même moment, en parallèle, sont pris en compte et le programme guide le processus d’assemblage.

Tu travailles aujourd’hui sur tout à fait autre chose ?

AC : oui. J’essaie de comprendre l’impact des processus évolutifs sur les séquences protéiques, sur leur structure (leur repliement dans l’espace 3D) et sur leurs fonctions (leur rôle dans la cellule). Nous partons de l’analyse des séquences d’une protéine, trouvées dans des espèces différentes, et nous essayons d’en extraire des signaux biologiques intéressants. On fait de l’« ingénierie renversée » en essayant de prédire comment la protéine (dans sa forme tridimensionnelle) fonctionne à partir des séquences.

On essaye de détecter les points faibles/critiques d’une protéine. Leurs mutations peuvent impliquer des changements dans la structure ainsi que dans la fonction de la protéine, induisant potentiellement des conséquences irréversibles pour la vie de la cellule. Des phénomènes de développement précoce de vieillissement, ou encore de développement de maladies génétiques peuvent démarrer suite à des mutations spécifiques dans les séquences des protéines. Ces transformations arrivent de manière aléatoire. Nous développons des « mesures » et des approches computationnelles qui nous permettent de distinguer les mutations critiques des mutations neutres.

Dans mon travail, je cherche aussi des informations sur les interactions d’une protéine avec les autres, qu’elles soient des partenaires cellulaires ou non, pour comprendre comment discriminer les partenaires protéiques des protéines qui n’interagissent pas. C’est une question fondamentale en biologie moléculaire parce que le comportement cellulaire dépend des interactions entre les protéines.

Les biologistes expérimentent dans ce domaine, mais les expérimentations sont longues, coûteuses, et le nombre de paramètres est tel que les progrès sont lents. Avec l’informatique, il est devenu possible de tester et simuler les interactions de milliers de protéines entre elles. Avec nos simulations, nous pouvons faire émerger des hypothèses que nous pouvons ensuite passer aux expérimentateurs pour qu’ils les testent, les vérifient. Nos calculs nous permettent d’obtenir des connaissances bien au delà de ce que peuvent atteindre aujourd’hui les expérimentateurs.

Comment fonctionnent de telles interactions ?

AC : Par exemple, nous voulons chercher les interactions entre un millier de protéines pour lesquelles nous connaissons la structures 3D, obtenues par exemple par cristallographie. Prenons-en deux ; appelons-les Alice et Bob. Nous voulons comprendre les interactions entre Alice et Bob. Mettons Alice au centre d’une sphère. Nous faisons bouger Bob sur toutes les autres positions possibles de la sphère et nous testons comme Alice et Bob s’amarrent au niveau moléculaire : ça s’appelle du « docking ». Il nous faut calculer les surfaces d’interaction possibles entre deux protéines et « évaluer » l’interaction. Il y a-t-il affinité ou pas dans le contact ?

Protéine avec trois sites d’interaction (au centre, blue/orange/jaune) et ses partenaires. Les cercles concentriques représentent les niveaux d’affinité de liaison des protéines. Binaire, CC BY

Ce sont des calculs considérables ?

AC : tout à fait considérables. Nous testons 300 000 positions sur la sphère. Pour chaque position, nous testons si l’amarrage est prometteur ou pas en faisant tourner Bob autour d’Alice quelques centaines de fois, pour chacun position de la sphère. Nous recommençons ces calculs pour quelques millions de couples possibles. Vous imaginez la dimension du calcul ! Nous avons pu réaliser ce calcul pour à peu près 2200 protéines humaines en 3 ans, en utilisant des raccourcis algorithmiques qui nous ont permis de prédire l’espace de recherche des solutions et de le réduire ainsi de manière considérable. Surtout, nous avons pu employer 200 000 ordinateurs de volontaires reliés à la World Community Grid, gérée par IBM aux Etats-Unis. Mais nous ne sommes pas encore prêts à traiter les dizaines de milliers de protéines humaines ! Pour cela, nous avons besoin d’idées algorithmiques nouvelles. Ceci n’est qu’un exemple qui illustre l’impact énorme de l’informatique en biologie. Mais, tout cela demande des puissances de calcul inouïes, et nous conduit à résoudre des problèmes algorithmiques passionnants.

Cela soulève des problèmes mathématiques et algorithmiques passionnants ?

AC : de plus en plus je m’aperçois que les mathématiques à utiliser ou à développer sont dépendantes des données sur lequel s’applique le problème à résoudre. Selon les caractéristiques des données, il faut utiliser des approches computationnelles radicalement différentes. Pour vous donner un exemple, les échelles de temps qui ont généré certaines données biologiques, comme les séquences protéiques, sont très variables, depuis des jours ou des dizaines d’années pour l’évolution à l’échelle de l’individu, jusqu’aux millions ou billions d’années pour l’évolution des espèces.

Pour étudier des séquences au niveau des populations d’individus, nous allons plutôt nous appuyer sur des calculs combinatoires. On ira chercher les « régularités » dans ses séquences, c’est-à-dire des positions qui ne changent quasiment pas et estimer de combien ces positions s’ « éloignent » d’une régularité attendue. Pour explorer les espèces dans un arbre du vivant, nous allons plutôt utiliser des modèles statistiques pour lesquels une difficulté majeure est l’estimation du « bruit » de fond, nécessaire pour évaluer la distance entre le signal et ce bruit de fond.

A quoi ressemble ton travail au quotidien ?

AC : dans mon équipe, nous travaillons avec papier et crayon mais surtout nous écrivons des programmes, indispensables pour réfléchir sur les données biologiques. Pour nous, l’ordinateur est un instrument pour penser. Nous avançons des hypothèses, nous les testons sur de larges quantités de données, nous les modifions, nous testons de nouveau et ainsi de suite jusqu’à révéler les principes généraux qui gouvernent le comportement moléculaire. Nos résultats amènent à prédire des comportements moléculaires concernant les interactions protéine-molécule, mais aussi les arrangements tridimensionnels des molécules dans la cellule. Nous travaillons sur les structures protéiques, sur la conformation géométrique en 3D de l’ADN et d’autres questions autour des génomes. Pour toutes ces questions, nous avons besoin de développer des algorithmes efficaces, rapides, pour ne pas avoir à attendre les résultats des mois et des mois. Notre travail consiste souvent à concevoir des algorithmes qui résolvent des problèmes de géométrie et géométrie combinatoire. Donc, pour nous, les ordinateurs ont deux utilités : pour raisonner (avec eux) et pour produire des prédictions.

Deux protéines, une montrant la surface (bleu) et l’autre ses sous-structures (rouge). Un réseau schématise les interactions. Binaire, CC BY

Vous obtenez des théorèmes ?

AC : pas au sens mathématique du terme. J’ai abandonné les théorèmes quand je suis passé à la biologie. Je suis dans le monde des données et des phénomènes physiques complexes, pour lesquels très souvent on approche des principes généraux (c’est ce que je cherche) du comportement moléculaire qui expliquent les données expérimentales.

Les mathématiciens ont des règles logiques qui peuvent les aider à vérifier leurs preuves. Au contraire, nos vérificateurs sont les données biologiques, provenant des expériences. Il s’agit de données bruitées et leur utilisation, pour tester nos « théorèmes », doit être judicieusement employée. C’est important de se rendre compte que la rigueur du phénomène physique est bien plus élevée en certitude que la rigueur du raisonnement logique, et cela parce que les expériences physiques reproductibles sont bien plus fiables que l’intuition humaine. L’idée de travailler aujourd’hui dans un contexte où les phénomènes biologiques complexes définissent le cadre de l’intuition me fascine et je pense que l’on est en train d’aller vers la définition d’une nouvelle discipline, différente des mathématiques existantes, et qui nous permettra d’utiliser les données de façon rigoureuse à l’aide de calculs qui accompagneront la construction de l’intuition.

Travailler aux interfaces entre deux disciplines n’est pas simple…

AC : les mathématiciens pensent que nos méthodes ne sont pas rigoureuses et générales, et les biologistes aimeraient souvent nous cantonner à un rôle de producteurs de services. Je pense que nous sommes en train d’inventer une nouvelle biologie. Nous produisons des données « biologiques » avec nos ordinateurs ; il s’agit de données qui ne peuvent pas être produites par des expériences en laboratoire avec les techniques existantes. Ces données ont autant de valeur que les données expérimentales ! Elles peuvent servir à faire avancer nos connaissances. C’est une révolution importante pour les sciences biologiques, une révolution qui demande aux biologistes d’accepter de nouvelles frontières intellectuelles, et à nous, informaticiens et mathématiciens, de faire un gros effort intellectuel pour comprendre comment utiliser nos puissances de calcul pour étendre les frontières de la connaissance.

Autour de l'informatique : réinventer la biologie

Authors

Disclosure statement

Partners

Want to write?