La génomique, reine du big data

Genomes. National Human Genome Research Institute (NHGRI), CC BY-SA

Depuis la fin des années 1990 et le projet génome humain, les technologies de séquençage de l’ADN connaissent une véritable révolution qui fait aujourd’hui entrer la génomique dans l’ère du big data. Depuis une quinzaine d’années, le volume des données générées dans le domaine de la génomique a crû en proportion inverse du coût du séquençage : ainsi, annoncé en 2016, le plan France Médecine Génomique 2025 prévoit de produire plusieurs dizaines de pétaoctets (Po) de données par an d’ici 5 ans.

Leur stockage, leur accessibilité et leur exploitation sont donc des problématiques à part entière. Trois domaines sont particulièrement concernés : l’exploration de la diversité du vivant et des écosystèmes complexes, la génomique fonctionnelle et la médecine génomique de précision, qui implique la recherche de biomarqueurs par l’analyse d’ensembles de données hétérogènes.

Deux exemples : le premier concerne Tara Océans. Ce projet, dont le Genoscope est un acteur majeur, vise à explorer par une approche dite métagénomique le plus grand écosystème planétaire que représente le plancton océanique. Encore très peu étudiés, ces écosystèmes contiennent de 10 à 100 milliards d’organismes par litre d’eau de mer. Leur impact sur les cycles géochimiques globaux et le climat est extrêmement important puisqu’ils absorbent la moitié de notre production en CO2 et dégagent 50 % de l’oxygène de la planète. Malgré cela, leur extraordinaire biodiversité reste encore à découvrir !

Carte satellite des 3 îles marquisiennes. Les tourbillons de couleur indiquent la présence de plancton. Le rouge représente les zones les plus concentrées en phytoplancton. L’orange, le jaune et le vert une concentration décroissante. Le bleu, une absence de plancton en surface. CEA-Clés, CC BY

Le second exemple décrit une décennie d’analyse fonctionnelle des génomes mammifères, entre 2007 et 2017. Les premiers séquenceurs à haut débit ont favorisé l’essor sans précédent de l’analyse fonctionnelle des génomes humains et d’organismes modèles tels que la souris. Ils ont permis de définir, à l’échelle du génome entier, les profils de distribution de facteurs de transcription et de marques d’histones, qui contribuent à la régulation épigénétique du génome.

Cette approche expérimentale, le ChIP-seq (immuno-précipitation de chromatine couplée au séquençage massif), au succès mondial, continue à être largement utilisée et de nouveaux protocoles ont été développés pour caractériser les phénomènes de transcription, de dynamique de la chromatine, ainsi que l’architecture 3D du génome mammifère. La gestion, l’analyse et l’interprétation des données de génomique fonctionnelle, qui s’accumulent de façon exponentielle, nécessite des compétences de plus en plus variées. Un effort de collaboration sans précédent entre biologistes et informaticiens est essentiel pour faire face au rythme des découvertes et de l’apparition de nouvelles approches expérimentales.

Si l'on revient à une problématique plus globale, la question du volume des données est par ailleurs indissociable de celle de leur accumulation au cours de projets s’étalant sur plusieurs années : dans le cas de la médecine de précision, c’est l’enrichissement des bases de données, avec des données de séquences, phénotypiques, environnementales, médicales, et leur confrontation permanente avec celles précédemment acquises qui permet, par un mécanisme d’auto-apprentissage, d’affiner les diagnostics et d’identifier des biomarqueurs originaux.

Pour le traitement des données, deux grands types d'usage ont de gros besoins en calcul : l'assemblage (la reconstitution de novo de génomes à partir de données brutes de séquençage) et la comparaison de séquences avec celles déjà connues (fig. 2).

Ces deux approches ont en partage l'importante quantité de données à manipuler et la quasi-impossibilité de calibrer le temps d’exécution. Il s’agit de téraoctets (To) de données et de fichiers de plusieurs dizaines ou centaines de Go, ce qui impose qu’elles soient au plus près des moyens de calcul avec des capacités en lecture/écriture adaptées.

Pour les projets génomiques d'envergure, l’utilisation des technologies du cloud computing en coordination avec les systèmes HPC bien connu du monde de la physique ou plus précisément leur évolution HTC permettra de bénéficier des points forts de ces différents modèles, à savoir la performance en termes d’entrées/sorties et de calcul pour le HTC, et les caractéristique d’élasticité et d’adaptation à la demande du cloud computing.

Pour finir, revenons sur deux enjeux essentiels en génomique humaine. En premier lieu, le partage des données : étant donnée la rareté des événements génétiques, les données générées pour un individu ne prennent de sens et de valeur que si elles peuvent être croisées avec de nombreuses bases de données, idéalement avec l’ensemble des génomes connus. En second lieu, la confidentialité des données : rien n’est plus identifiant que la séquence génomique d’un individu qui porte des informations prédictives, et même au-delà des informations touchant ses descendants, ascendants ou sa fratrie. Cet aspect reste critique et des solutions élégantes émergent, comme le chiffrement homomorphe, qui permet de calculer sur une donnée chiffrée et d’obtenir un résultat lui-même chiffré.


Cet article est publié en partenariat avec le CEA dans le cadre de la nouvelle formule du magazine Clefs dont le premier numéro est consacré au big data.