Janvier 2003 - n°74
Comment déduire une analyse fonctionnelle à
partir de données d’expression brutes ? Réponse: Onto-express,
l’outil logiciel adapté à ce besoin.
Par Manuel DUVAL, DNA ARRAY INC , email : manuel.duval@cdnaarray.com
http://www.DNAarray.com
Les technologies de mesure d’expression des gènes à haut
débit (e.g. SAGE, puces à ADN) ont été initialement
mises au point dans l’objectif d’attribuer une annotation aux
gènes à la même cadence que ceux-ci étaient séquencés.
Au cours des années 90, quand les grands projets de séquençage
furent lancés, la communauté scientifique réalisa qu’il
n’était plus possible d’élucider la fonction des
gènes un par un, avec une approche expérimentale classique.
Deux concepts principaux menèrent à la conception des microarrays
destinées à la mesure des profils d’expression. Premièrement,
c’est un fait que le phénomène le plus étroitement
régulé de la biologie de la cellule est l’initiation de
la transcription. Par voie de conséquence, tout gène dont le
niveau de transcription est altéré au cours d’un processus
biologique donné a toutes les chances d’être impliqué
dans ce processus. Deuxièmement, tout réponse biologique, déclenchée
par un stimulus donné, est la résultante d’une série
d’événements, habituellement regroupés sous le
terme de cascade. Ces séries d’événements de cause
à effet sont supportés par des protéines, agissant l’une
envers l’autre de manière successive, suivant des voies d’interaction
bien définies. Ces enchaînements d’interaction sont communément
dénommés voies d’activation. Typiquement, lors d’une
expérience de cinétique conduite avec des puces à ADN,
plusieurs sondes nucléiques peuvent être regroupées a
condition que leur expression en fonction du temps puisse être corrélée.
Celles pour qui la séquence représentait l’unique donnée
expérimentale peuvent dès lors être assignées à
une fonction relative au processus biologique à l’étude,
par le fait d’être co-régulée avec d’autres
séquences nucléiques représentatives de gènes
déjà caractérisés. Ce concept a été
formulé pour la première fois par Shena et al., 1995: «The
temporal, developmental, topographical, histological, and physiological patterns
in which a gene is expressed provide clues to its biological role».
Cela étant, les données acquises par les systèmes de
mesure d’expression de gènes à haut débit contiennent
des informations relatives à l’objet biologique à l’étude.
Etant donné que les systèmes de capture de données à
l’échelle du génome se sont développés depuis
déjà plusieurs années, un plus grand nombre de gènes
a déjà été annoté. Par conséquent,
de la réponse à un événement biologique, évaluée
par la mesure du transcriptome avec une approche à haut débit
(e.g. SAGE et/ou puce à ADN), des éléments d’information
sur la physiologie de l’objet biologique à l’étude
peuvent être déduits. Un exemple remarquable de cette conduite
déductive est la révélation de la façon dont les
fibroblastes Humains répondent au sérum. Iyer et al., 1999 ont
analysé les ARNm de fibroblastes avec une puce à ADN contenant
3700 sondes nucléiques et ont montré que ces cellules sont impliquées
dans la physiologie de la résorption de la plaie.
En d’autres termes, toutes expériences de profil d’expression
délivrent des données qui peuvent potentiellement servir d’une
part à annoter des séquences nucléiques, d’autre
part à produire des évidences sur l’implication de tel
ou tel gène dans l’initiation d’un phénomène
biologique (e.g. dans la survenue d’une pathologie) et également
dans la description au niveau moléculaire de systèmes biologiques.
Cette dernière analyse nécessite de traduire le résultat
d’une expérience de profil d’expression, représenté
typiquement par des fichiers contenant une liste d’identificateurs de
gènes, en une représentation révélant des informations
au niveau biologique. L’accomplissement d’une telle analyse dépend
à la fois d’une nomenclature standard appliquée aux gènes
et également d’un système de récupération
de cette structure de données de façon automatique à
partir d’un fichier d’entrée ne contenant que des listes
d’identificateurs de gènes. La première tâche qui
consiste à spécifier les standards de dénomination est
entreprise par un groupe d’administrateurs des principales bases de
données génomiques, rassemblé sous la bannière
du GENE ONTOLOGYTM CONSORTIUM (GO). Le GO consortium spécifie un «dynamic
controlled vocabulary that can be applied to all organisms even as knowledge
of gene and protein roles in cells is accumulating and changing» (http://www.geneontology.org/).
A chaque produit de gènes est assigné, autant que faire se peut,
i.e. eu égard à l’état des connaissances les plus
récentes, trois attributs:
(I) sa ou ses fonction(s) moléculaire(s);
(II) dans quel(s) processus biologique(s) il est impliqué;
(III) de quel(s) composant(s) cellulaire(s) il rentre dans la composition.
Toute chose étant égale par ailleurs, la structuration de données
génétiques spécifiée par le GO consortium s’apparente
à la classification des atomes dans la table périodique des
éléments. La tâche qui consiste tout d’abord en
la récupération automatique des attributs biologiques en fonction
des identificateurs de gènes et par la suite en la représentation
graphique du résultat de la requête, requiert un outil logiciel
sophistiqué. Onto-express a été mis au point précisément
pour combler cette demande (http://vortex.cs.wayne.edu/Projects.html). Onto-express
repose sur une base de données relationnelles exhaustives, comprenant
les séquences génétiques annotées à partir
de plusieurs sources de données, incluant LocusLink et RefSeq, UniGene,
dbEST (partitions de GeneBank adminitrées par le NCBI), Gene Ontology,
KEGG Genes, KEGG Ligand et KEGG Pathways. A l’heure actuelle, la base
de données contient des informations sur plus de six millions de données
de séquences et est hébergée au Département de
Computer Science, Wayne State University, USA. Le logiciel Onto-Express examine
les annotations et retourne un profil fonctionnel du système biologique
à l’étude. Pour chaque ensemble de gènes dont il
a été montré que ceux-ci étaient exprimés
différentiellement suivant une condition expérimentale donnée,
Onto-express construit un certain nombre de profiles fonctionnels. Ces profils
fonctionnels incluent : les fonctions biochimiques, les processus biologiques,
les composants cellulaires, les fonctions cellulaires et enfin la localisation
des gènes sur la carte physique du génome. Onto-express délivre
ces informations sous forme de représentations graphiques dénommées
ontogénies. L’ontogénie d’un système biologique
peut être par exemple représentée sous la forme de cercles
pleins avec les différentes fractions exprimant le niveau relatif des
processus biologiques affectés par l’expérience à
l’étude. Une fonction absolument décisive de Onto-express
Version V2 est qu’à chaque résultat est associée
une valeur de signification statistique. Cette fonctionnalité permet
aux chercheurs de distinguer les processus biologiques significativement altérés
au cours de l’expérience par opposition à ceux dont la
variation est survenue par chance ou par une cause extérieure à
celle à l’étude.
Représentation graphique d’une ontogénie délivrée
par Onto-express
Onto-express, comment en bénéficier
?
1. avec un simple navigateur web, l’utilisateur ouvre l’URL suivante:
http://www.openchannelfoundation.org/asp/asp_subscribe2.php?group_id=231
2. dans la fenêtre de chargement des données, l’utilisateur
attache un fichier contenant une liste de gènes organisé par numéro
d’accession (GenBank), ou numéro de cluster UniGene ou par numéro
d’identification Affymetrix.
3. pour chaque gène du fichier d’entré, Onto-express crée
une liste des catégories fonctionelles associée à ce gène.
4. Onto-express examine ses bases de données, incluant notamment LocusLink,
Ensembl et des données internes.
5. les profils fonctionnels sont retournés à l’utilisateur,
sous forme de représentations graphiques (e.g. histogrammes dont la longueur
des barres dépend de la fréquence à laquelle une fonction
donnée, déduite du profil d’expression, prévaut dans
le système biologique à l’étude).
6. en cliquant sur une des barres de l’histogramme, une fenêtre
renvoie la liste des gènes présents dans le fichier d’entrée
et associés à cette fonction
7. depuis cette liste de gènes, des liens directs sur les principales
bases de donnés (e.g, GeneBank au NCBI) sont prévus.