ARTICLE
En juin 2000, Francis Collins (du National institute of health,
fondateur du projet Génome humain) et Craig Venter (président
de Celera Genomics) ont annoncé le séquençage complet
du génome humain. Les données sont accessibles à
l'ensemble de la communauté scientifique sur le web, gratuitement
sur le site du NCBI (National center of biotechnology information
à http://www.ncbi.nlm.nih.gov/Entrez).
Le nombre de gènes humains, tout d'abord estimé à
150 000, devrait en réalité être compris entre 26
et 40 000 selon les dernières estimations fondées sur l'extrapolation
de l'analyse de la densité des gènes prédits et connus
des chromosomes 21 et 22 ou sur l'analyse informatique des homologies
génétiques entre espèces [1, 2]. Collins et McKusick
(du National human genome research institut) prédisent que
la plupart des gènes impliqués dans les maladies telles
que le diabète, les maladies cardiovasculaires ou les cancers seront
identifiés d'ici 2010 [3]. La génétique étudie
l'hérédité, la génomique s'intéresse
à la structure du génome. La génomique fonctionnelle
émerge comme l'étude de systèmes biologiques fondée
sur la connaissance globale des génomes, des transcriptomes et
des protéomes. Le but dans un futur proche est de construire des
bases de données informatiques, où les mutations génomiques
seront répertoriées, avec leurs relations ou non avec un
phénotype ou une maladie donnée. Aussi la remise à
jour des données doit-elle être permanente et supervisée
par un Comité de pilotage composé de scientifiques spécialisés
dans chaque domaine [4, 5].
Cet énorme travail de nomenclature, classement, et mise à
disposition des données pour la communauté scientifique
internationale suppose que le langage ainsi que les outils utilisés
soient unanimement partagés par l'ensemble des scientifiques. C'est
pourquoi des comités de nomenclature se sont réunis, pour
établir des recommandations quant à la manière de
dénommer à la fois les gènes, les transcrits et les
protéines.
Le but de cet article est de présenter les principales recommandations
de nomenclature utilisées pour dénommer les gènes
humains et les mutations, ainsi que les sources et bases de données
où le lecteur pourra se référer.
Définition d'un gène
La définition actuelle, utilisée par le Comité
de nomenclature du génome humain, est qu'un gène est un
segment d'ADN qui contribue à une fonction ou un phénotype
[6]. Cependant, on peut prédire un gène ou des familles
de gènes en étudiant les homologies de séquence de
portions d'ADNc ou d'ARNm avec des séquences connues. Cela pose
un problème de nomenclature puisque dans de nombreux cas, il existe
des incertitudes sur le nombre exact de gènes dans une famille
de gènes, ou sur leur désignation appropriée (fonction
non encore démontrée).
La notion : « un gène traduit = une protéine »
n'est valable que pour un certain nombre de gènes, puisqu'on a
mis en évidence de nombreux mécanismes complexes de transcription
ou de traduction des gènes, tels que l'épissage alternatif,
l'épissage entre plusieurs gènes et l'existence des transcrits
antisens. Pour ces problèmes complexes, la nomenclature devra s'adapter
et, à l'heure actuelle, certaines dénominations sont encore
débattues et pourront être remises en cause avec les progrès
de la génomique fonctionnelle.
Les chercheurs sont invités à se mettre en rapport avec
le comité de nomenclature responsable de la dénomination
des gènes humains (HUGO gene nomenclature committee (HGNC),
the galton laboratory, UCL, london UK), par l'intermédiaire de
l'adresse suivante : nome@galton.ucl.ac.uk.
Règles de nomenclature pour les gènes
humains
Les règles de nomenclature appliquées actuellement et
revues par le HGNC sont disponibles sur le site : http://www.gene.ucl.ac.uk/nomenclature/guidelines.html/
et ont été publiées dans Genomics en 1997
[7]. Une récente mise à jour effectuée lors du dernier
meeting du HGNC en octobre 2001 est accessible sur l'URL : http://www.gene.ucl.ac.uk/nomenclature/guidelines/draft_2001.html.
Gènes identifiés, dont la fonction
est connue
Le nom du gène doit être court et spécifique et
se rapporter directement à sa fonction, si elle est connue. Un
symbole de gène doit comporter moins de six caractères,
il s'écrit exclusivement en lettres latines et en chiffres arabes,
sans espace entre les lettres et les chiffres ; les lettres expriment
la fonction du gène et les chiffres se rapportent aux différents
loci connus pour des gènes de fonction similaire. Pour faciliter
le classement alphabétique et le regroupement des familles de gènes,
le symbole et le nom du gène doivent commencer par la même
lettre. Certaines lettres sont réservées à un usage
spécifique : AP pour associated protein, BP pour binding
protein, D ou DC pour domain containing, IP pour interacting
protein, MT pour mitochondrial, R pour receptor, RG
pour regulator, N ou NH pour inhibitor. Les nouveaux symboles
doivent être différents de ceux déjà attribués
; les auteurs peuvent consulter la base de données des symboles
disponible sur l'URL : http://www.gene.ucl.ac. uk/nomenclature/searchgenes.pl/.
Quand on se réfère, dans une publication, à l'information
d'ordre génotypique (le gène) le symbole doit être
écrit en majuscules italiques (par exemple : HBA1 pour le
gène codant pour l'hémoglobine A1) ; alors que lorsqu'on
se réfère aux informations d'ordre phénotypique (la
protéine), le symbole s'écrit en majuscules (par exemple
: HBA1). Concernant les homologies de gènes entre espèces
de vertébrés, il est recommandé d'attribuer les mêmes
noms et symboles aux gènes orthologues dont la fonction est clairement
connue : il existe une table des codes utilisés pour les espèces,
établie par le comité de standardisation en cytogénétique
humaine (à consulter sur le site). Par exemple, le gène
codant pour la glucose 6 phosphate-déshydrogénase s'écrit
: (HUMAN) G6PD pour le gène humain, où HUMAN désigne
l'espèce Homo sapiens et (MOUSE) G6pd pour le gène
murin, où MOUSE est l'abréviation réservée
à la souris Mus musculus (par convention, dans les publications,
les gènes humains s'écrivent en majuscules italiques et
les gènes murins en minuscules italiques). Pour les gènes
homologues des espèces procaryotes ou des invertébrés,
il faut ajouter L pour like après le symbole, suivi éventuellement
d'un chiffre, s'il y a plus d'un gène homologue.
Gènes identifiés à partir
d'une séquence informative
Les gènes de fonction inconnue, prédits à partir
de clusters d'EST (expressed sequence tags) ou à partir
d'une séquence génomique seule sont considérés
comme putatifs et désignés par l'origine chromosomique et
un nombre arbitraire. La majuscule O ne doit pas être utilisée,
pour éviter la confusion avec le zéro, qui peut faire partie
du numéro d'un chromosome (par exemple : C2orf1 où orf =
open reading frame). Ces symboles sont générés
automatiquement par la base de données internationale Genbank et
consultables sur le site du NCBI (National center of biotechnology
: http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db= Nucleotide/).
Les pseudogènes sont des séquences d'ADN généralement
non transcrites et non traduites, présentant une grande homologie
avec un gène actif, dont ils dérivent par duplication/mutation
ou par rétrotranscription (processed pseudogènes).
Le pseudogène portera le même symbole que le gène,
suivi de P pour pseudogène (par exemple : HBAP1 et HBAP2
pour les pseudogènes 1 et 2 de l'hémoglobine alpha).
Les séquences apparentées à un gène sont
identifiées par cross-hybridation ou par analyse informatique
des bases de données de séquences nucléotidiques
(BLAST, FASTA). Ces séquences sont désignées par
le symbole du gène apparenté connu, suivi de L pour like,
suivi d'un numéro s'il existe plusieurs gènes similaires
(par exemple : BTNL1, BTNL2 et BTNL3 sont les trois symboles
des gènes similaires de la butyrophiline).
Une séquence de fonction inconnue comportant des exons chevauchants,
située au même locus qu'un gène doit avoir son propre
symbole. Si c'est un gène de régulation du premier gène,
on lui ajoute le suffixe AS pour Antisens (par exemple : IGF2AS
désigne le gène insulin-like growth factor 2, antisense.
Au symbole des gènes de fonction inconnue, situés sur le
brin opposé qui n'ont pas de fonction régulatrice prouvée,
on ajoute le suffixe OS pour opposite strand.
Terminologie utilisée pour les allèles
(mutations)
Un variant allélique est par définition un changement
de nucléotide dans la séquence de référence
de l'ADN génomique ; le plus souvent il s'agit de la substitution
d'un nucléotide par un autre (appelé aussi SNP pour single
nucleotide polymorphism) ; moins fréquemment, ce sont des délétions
ou des insertions. Les mutations sont la source de variation génétique
et de diversité phénotypique, certaines sont neutres, d'autres
sont pathogènes [8].
On estime à plusieurs millions le nombre d'allèles à
répertorier et à classer, en les reliant aux loci correspondants.
De plus, la documentation sur les allèles va devenir très
importante avec le développement de la génomique fonctionnelle
qui consiste à lier les modifications phénotypiques à
un ou plusieurs allèles correspondants. Depuis 1996, des comités
internationaux se réunissent pour établir des recommandations
sur la nomenclature des mutations. Les bases de données qui répertorient
les mutations sont de deux types : bases de données de mutations
génomiques et bases de données de mutations locus
spécifiques.
Une première liste de recommandations de nomenclature pour les
mutations a été publiée en 1998 par Antonarakis et
le groupe de travail sur la nomenclature [9].
Pour les nucléotides
Un numéro unique d'identification doit être attribué
à chaque nouvelle mutation entrée dans les bases de données.
La numérotation des nucléotides d'un gène commence
au codon d'initiation (le A du codon ATG de la méthionine est noté
+ 1, le nucléotide lié en 5' de l'ATG est noté -
1). On note un changement de nucléotide en commençant par
le numéro du nucléotide puis le changement de nucléotide
(par exemple : 1220G > A signifie que le G en position 1220 de la séquence
de référence est remplacé par A). La même règle
s'applique aux délétions (par exemple : 1220delT, ou pour
plusieurs nucléotides délétés : 1220-1222delTTC)
et les insertions s'écrivent : 330-331insA. Les variations en séquences
courtes répétées s'écrivent par exemple :
1000(AT)5-10, ce qui signifie que le « tandem » AT peut se retrouver
5 à 10 fois dans une population donnée. Deux mutations dans
un même allèle doivent s'écrire entre crochets, par
exemple : [90A > T ; 105G > T].
Pour les acides aminés
La table de correspondance à une lettre doit être utilisée
(par exemple : F pour phénylalanine). Le codon d'initiation de
la méthionine est noté + 1. L'acide aminé de référence
est noté avant le numéro du codon, suivi de l'acide aminé
muté (par exemple : Y97S la tyrosine du codon 97 est substituée
par la sérine). Les codons stop sont désignés par
X (par exemple : R97X signifie que l'arginine du codon 97 est remplacée
par un codon stop). Les délétions sont désignées
par l'abréviation del (par exemple : T97del signifie que le codon
97 pour la thréonine est délété).
Les insertions sont désignées par l'abréviation
ins (par exemple : T97-98ins indique que le codon pour la thréonine
est inséré entre les codons 97 et 98 de référence
de la protéine).
Cette première liste de recommandations a été complétée
pour la nomenclature de mutations plus complexes [10].
Bases de données des mutations
Sur le site Internet de la HUGO mutation database initiative
(http://www.genomic.unimelb.edu.au/mdi/dblist/dblist.html), une liste
des bases de données de mutations est disponible, ainsi que les
sites s'y référant [11]. Ce site, coordonné par Horaitis,
de l'université de Melbourne, répertorie de nombreux liens
pour les bases de données se référant à des
mutations classées par « domaines » : « locus spécifiques
», liées aux maladies multigéniques (maladies cardiovasculaires,
diabète) ou aux maladies rares, dans une population donnée
(israëlienne ou iranienne, par exemple), dans les génomes
non humains, créées artificiellement, ou encore concernant
des domaines d'étude particuliers (comme le favisme, par exemple).
Une liste d'une quarantaine de sites et liens concernant les SNP (mise
à jour en novembre 2001) est aussi disponible sur l'URL : http://hgbase.cgr.ki.se/hgbase/
databases.htm.
Concernant la base de données du NCBI (dbSNP à http://www.ncbi.nlm.nih.gov/SNP/),
les statistiques de janvier 2002 indiquent qu'il existe déjà
plus de quatre millions de SNP soumis à la base de données
pour le génome humain et près de 18 000 loci répertoriés
dont plus de 14 000 reliés à la base de données OMIM
(Online mendelian inheritance in man), catalogue de gènes
humains et de maladies génétiques. Sur l'URL : http://www.ncbi.nlm.nih.gov/LocusLink/statistics.htm,
les statistiques concernant le nombre de gènes humains enregistrés
montrent qu'il existe plus de 10 000 gènes avec un symbole de la
nomenclature officielle dont le produit est connu, et 558 gènes
avec un symbole de la nomenclature officielle dont la fonction n'est pas
connue, pour seulement 397 « phénotypes » enregistrés.
Cette richesse et cette complexité montrent toute l'importance
d'un respect strict des règles de nomenclature dans les publications,
afin d'éviter toute ambiguïté dans la dénomination
d'un gène et/ou de sa protéine.
Article reçu le 27 juillet 2001, accepté le 1er
février 2002.
REFERENCES
1. Venter JC, Adams MD, Myers EW, et al. The sequence of
the human genome. Science 2001 ; 291 : 1304-51.
2. Rubin GM. The draft sequences: comparing species. Nature
2001 ; 409 : 820-1.
3. Collins FS, McKusick VA. Implications of the human genome
project for medical science. JAMA 2001 ; 285 : 540-4.
4. Scriver CR, Nowacki PM, Leväshailo H. Guidelines and
recommendations for content, structure, and deployment of mutation databases.
Hum Mut 1999 ; 13 : 344-50.
5. Scriver CR, Nowacki PM, Leväshailo H and the working
group. Guidelines and recommendations for content, structure, and deployment
of mutation databases: II. Hum Mut 2000 ; 15 : 13-5.
6. White JA, Bruford EA, Wain HM, Povey S. Changing concepts
of the gene. The Hugo Gene Nomenclature Commitee. http://www.gene.ucl.
ac.uk/nomenclature/.
7. White JA, McAlpine PJ, Antonarakis SE, et al. Guidelines
for human gene nomenclature. HUGO Nomenclature Commitee. Genomics
1997 ; 45 : 468-71.
8. Scriver CR, Nowacki PM. Genomics, mutations and the internet:
the naming and use of parts. J Inhermetab Dis 1999 ; 22 : 519-30.
9. Antonarakis SE and the nomenclature working group. Recommendations
for a nomenclature system for human gene mutations. Hum Mut 1998
; 11 : 1-3.
10. Den Dunnen JT, Antonarakis SE. Mutation nomenclature extensions
and suggestions to describe complex mutations: a discussion. Hum Mut
2000 ; 15 : 7-12.
11. Horaitis R. HUGO mutation database initiative (variation
databases and related sites). http://www.genomic.unimelb.edu.au/mdi/dblist/
dblist.html
|