Avril 1999 - n°37

Le laboratoire d'Information Génétique et Structurale à Marseille

"Au coeur de la bioinformatique"

Les séquençages d'ADN se sont multipliés ces dernières années et concernent toutes les espèces, des bactéries à l'homme. Restent aux chercheurs bioinformaticiens le soin de lire et d'interpréter ce matériel génétique brut... Un travail considérable, "plusieurs milliers de nouveaux ingénieurs et chercheurs bioinformaticiens seront nécessaires à l'interprétation des nouvelles données estimées à 2 millions de nucléotides par jour pour les cinq prochaines années" confirme Jean-Michel Claverie. Le laboratoire d'Information Génétique et Structurale (UMR CNRS- RPR) qu'il dirige à Marseille est au coeur de cette interprétation de l'information génétique contenue dans les bases de données génétiques. Dans un article récent (Audic S. , Claverie J.-M. 1998. Self-identification of protein-coding regions in microbial genomes. Proc. Nat. Acad. Sci. USA 95 : 10026-10031.), son équipe a notamment publié une méthode originale pour l'auto-identification des régions codantes des génomes microbiens.

Qu'est-ce que la bioinformatique ?

Jean-Michel Claverie nous explique la bioinformatique en quelques mots : "La bioinformatique est le décryptage de la bio-information, elle est constituée par l'ensemble des concepts et des techniques nécessaires à l'interprétation de l'information génétique (séquences) et structurale (repliement 3-D). La bioinformatique est donc une branche théorique de la biologie. Son but, comme tout volet théorique d'une discipline est d'effectuer la synthèse des données disponibles, d'énoncer des hypothèses généralisatrices et de formuler des prédictions." "Le terme "bioinformatique" prête à de nombreuses confusions" regrette Jean-Michel Claverie. "Depuis son origine, la bioinformatique a accompagné et/ou précédé l'acquisition de l'information génétique, elle n'est donc pas un "produit" de la génomique mais, comme la biologie moléculaire, elle en est un domaine fondateur. La bioinformatique n'est pas non plus dérivée de la "science" informatique ; elle est -comme l'aéronautique, la banque ou la physique- utilisatrice des ordinateurs et de leurs langages. Un véritable bioinformaticien n'est donc pas le simple croisement d'un biologiste et d'un informaticien!".

Identifier les gènes et prédire leurs fonctions sont les deux thèmes majeurs de la bioinformatique contemporaine

Les problèmes posés par l'identification des gènes sont différents pour les génomes très peu denses de mammifères (5-10% de séquence utile) ou pour les génomes microbiens (90% de séquence utile). Ces différences ont entraîné l'utilisation d'algorithmes distincts dont la conception continue d'évoluer au fur et à mesure de l'avancée des connaissances acquises en biologie fondamentale. L'interprétation des génomes bactériens est un des axes de recherche développés au laboratoire d'Information Génétique et Structurale.

Le premier serveur d'annotation génomique entièrement automatique (SelfID) pour l'interprétation des génomes bactériens

Jusqu'à présent, les protocoles d'interprétation ont toujours nécessité une adaptation spécifique à chaque nouveau microorganisme et un apprentissage "par l'exemple" qui requiert une connaissance préalable de certaines propriétés de chaque génome. Le laboratoire d'Information Génétique et Structurale a révolutionné ce principe par la mise au point d'une méthode qui permet la localisation précise des gènes et la prédiction de leurs fonctions uniquement à partir des données de séquences brutes d'ADN. La méthode a été validée sur différents types de génomes bactériens (bactéries Gram négatif, Gram positif, cyanobactéries et archaebactéries) et l'interprétation réalisée est de qualité égale ou supérieure à celle des méthodes traditionnelles. "Notre méthode est totalement objective, au sens qu'elle ne nécessite pas l'apprentissage préalable d'un modèle de séquence codante" explique Stéphane Audic, Docteur en astrophysique reconverti à la bioinformatique et auteur principal de ce travail,"cette nouvelle méthode est aussi naturellement tolérante aux erreurs de séquençage, elle peut aussi bien servir à l'interprétation de génomes totalement assemblés qu'à celle de données fragmentaires résultant d'un simple survol du génome".

Suite à ces travaux, le laboratoire d'Information Génétique et Structurale a mis en place une procédure d'interprétation de séquence génomique entièrement automatique et utilisable sur le serveur du laboratoire à l'adresse http://igs-server.cnrs-mrs.fr.

Le serveur du laboratoire marseillais comporte d'autres informations sur les différents thèmes de recherche menés par les équipes et il est actuellement utilisé plus de dix mille fois par mois par plus de cinq cents sites utilisateurs différents. Le site igs-server.cnrs-mrs.fr abrite notamment un serveur financé par l'ANRS qui rend compte des travaux du laboratoire concernant la classification des génomes du HIV.

Stéphane AUDIC / V. CROCHET