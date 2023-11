Dans notre génome, seulement environ 1 % est responsable de la production de protéines. Cependant, la majeure partie du génome, souvent appelée génome non-codant, joue également un rôle crucial dans la régulation des gènes. Il contient des séquences d’ADN spéciales appelés régions régulatrices, qui contrôlent quand et où les gènes sont activés ou désactivés dans notre corps.

Il faut imaginer notre génome comme un orchestre avec des milliers de musiciens, chacun représentant un gène. Tous les musiciens ne jouent pas en même temps ou avec la même intensité. Certains musiciens jouent fort dans certaines parties de la partition, tandis que d’autres jouent doucement ou se taisent complètement à différents moments. Les régions régulatrices sont comme les chefs d’orchestre invisibles qui indiquent à chaque musicien quand et comment jouer, et à quelle intensité.

Ces régions régulatrices, bien qu’étant situées en dehors des parties codantes du génome, sont essentielles pour contrôler le fonctionnement des gènes. Elles interagissent avec des facteurs de transcription, des molécules qui se fixent à ces régions régulatrices et influencent l’activité des gènes environnants.

Des séquences encore mystérieuses

Cependant, l’identification et la compréhension complètes de ces régions restent encore des défis pour les chercheurs en génomique. Depuis le séquençage du génome humain, et même avant, les scientifiques s’efforcent de démêler ces mystérieuses séquences pour comprendre comment elles contrôlent finement l’expression des gènes.

Ces séquences régulatrices ont été étudiées à l’échelle du génome entier depuis une décennie grâce au développement du séquençage à haut débit, qui a donné lieu à la technique d’immunoprécipitation de la chromatine ChIP-seq.

La technique ChIP-seq, ou immunoprécipitation de la chromatine couplée au séquençage à haut débit, est une méthode puissante utilisée en génomique pour étudier les régions de l’ADN qui contrôlent l’activité de nos gènes. Elle nous permet de découvrir quels acteurs, appelés facteurs de transcription, interagissent avec ces régions spécifiques de l’ADN et comment ces interactions peuvent influencer la façon dont les gènes fonctionnent. Pensez à l’ADN comme un immense puzzle, dont les facteurs de transcription sont des pièces importantes. Ils se lient à des parties spécifiques de l’ADN, un peu comme des aimants qui se fixent à des zones précises.

Ces pièces peuvent allumer ou éteindre les gènes à proximité en fonction de leurs interactions. La technique ChIP-seq nous permet de découvrir quelles parties de l’ADN sont directement en interaction avec les facteurs de transcription. Cela se fait en isolant ces parties spécifiques de l’ADN liées aux facteurs de transcription, puis en les séquençant pour déterminer leur position exacte dans le génome. En comprenant quelles régions de l’ADN sont liées à quels facteurs de transcription, nous pouvons mieux comprendre comment ces interactions influencent la régulation des gènes. Cela nous aide à comprendre les mécanismes qui contrôlent la croissance, le développement, le fonctionnement de notre système immunitaire et d’autres processus biologiques.

Cette méthode permet donc aux chercheurs de découvrir de nouvelles séquences régulatrices dans le génome, d’identifier les facteurs de transcription impliqués dans leur régulation et de comprendre comment ces régions régulatrices contribuent au développement normal et pathologique des cellules.

Depuis lors, cette technique est devenue un outil de choix dans la recherche en génomique, permettant des avancées significatives dans notre compréhension des mécanismes de régulation du génome.

Grâce à nos efforts d’analyses, notre équipe a décrit l’intégration de près de 15 000 expériences ChIP-seq, dont 8 103 portaient sur des échantillons humains, 5 503 sur des échantillons de souris et 1 205 sur des échantillons de drosophile. Ces données ont été compilées dans un atlas nommé ReMap, qui fournit un accès global et compilé à une vaste quantité de données génomiques en open access. L’atlas ReMap complète le projet ENCODE et permet une meilleure compréhension de la régulation génétique à l’échelle du génome. Cela offre également une opportunité pour les scientifiques du monde entier d’utiliser ces données pour leurs propres recherches et découvertes en génomique.

L’annotation du génome non-codant grâce à l’open data

La ressource ReMap est accessible en ligne et est également intégrée au navigateur de génome UCSC. Pour le génome humain seul, ReMap propose 182 millions de pics issus de plus de 15 000 expériences ChIP-seq effectuées pour 1 200 régulateurs transcriptionnels. Ici le terme pic ChIP-seq fait référence à ces endroits spécifiques sur l’ADN où les protéines se lient fortement. Ces endroits sont souvent des régions génétiques importantes, comme des promoteurs de gènes ou des régions régulatrices, qui contrôlent l’activité des gènes.

Nous avons traité l’équivalent de plusieurs dizaines de millions d’euros de données ChIP-seq, tout ça grâce à l’open data. Prises collectivement, les données génomiques générées par les laboratoires ont une valeur scientifique phénoménale. Les données génomiques peuvent avoir plusieurs cycles de vie, c’est un enjeu scientifique, économique et écologique.

L’analyse du projet ReMap a permis d’identifier entre 3 millions de régions régulatrices candidates chez l’homme et 2 millions chez la souris. L’atlas identifie également un grand nombre de régions régulatrices sans cibles connues, révélant ainsi l’énorme étendue du paysage régulateur du génome qui reste encore à explorer.

Depuis Avril 2022, le projet ReMap est devenu encore plus accessible à la communauté scientifique grâce à son intégration dans le navigateur de génome UCSC, aux côtés de grands consortiums internationaux tels que ENCODE, GTEx et 1000 Genomes. Cette intégration facilite l’utilisation de l’atlas ReMap pour les chercheurs et les biologistes qui souhaitent étudier les régions régulatrices du génome humain et de la souris. Cela permet également une analyse plus intégrée et une meilleure compréhension de la régulation génique. En bref, l’intégration de ReMap dans le navigateur de génome UCSC contribue à faire avancer la recherche en génomique en permettant un accès plus facile et une analyse plus complète des données de régulation génique.

Investir dans l’Open data : la clé pour accélérer la recherche en génomique

La création de ressources de référence telles que ReMap est essentielle pour la recherche interdisciplinaire en science des données génomiques. Avec le déploiement du séquençage du génome entier dans différents pays et le lancement en France du Plan France Médecine Génomique 2025, l’identification précise des régions régulatrices, et donc de l’impact des variants régulateurs, est devenue centrale.

Il est crucial de prendre conscience que la science est riche en données, mais que leur exploitation nécessite un engagement institutionnel, un savoir-faire humain et une technologie adéquate pour révéler les découvertes cachées. C’est pourquoi je crois que la création de ressources de références telles que ReMap est incontournable pour la recherche interdisciplinaire en science des données génomiques.

Les données ReMap offrent des informations complémentaires au mastodonte qu’est le projet ENCODE. Investir dans l’Open Data, dans les chercheurs en sciences des données (en bioinformatique, data analystes) et dans le développement d’outils logiciels est essentiel pour la science. Les projets d’apprentissage automatique en génomique ont besoin de données qualitatives telles que ReMap.

Dans un éditorial de 2016, le New England Journal of Medicine qualifiait ce type de travail de « research parasites ». Mais les temps ont changé : la reproduction des travaux scientifiques est un défi qui prend du temps, en partie à cause de la nature hétérogène des données scientifiques, ainsi que du manque de reconnaissance pour la reproduction de ressources. Cependant, la reproductibilité des expériences est vitale pour la science. La possibilité de reproduire, intégrer et regrouper des travaux antérieurs accélère également les nouveaux projets de recherche.

L’Atlas ReMap créé par l’équipe du TAGC a pu tirer parti de la richesse et du volume des données génomiques. L’identification de millions de régions régulatrices illustre que l’exploitation des données hétérogènes, couplée au développement d’approches en recherche scientifique en science des données, est un moyen précieux de faire progresser le domaine. La science est riche en données, mais elle nécessite un engagement institutionnel, un savoir-faire humain et la technologie nécessaire pour exploiter les données et révéler les découvertes cachées.