Home > Journals > Biology and research > Annales de Biologie Clinique > Full text
 
      Advanced search    Shopping cart    French version 
 
Latest books
Catalogue/Search
Collections
All journals
Medicine
Biology and research
Annales de Biologie Clinique
- Current issue
- Archives
- Subscribe
- Order an issue
- More information
Public health
Agronomy and biotech.
My account
Forgotten password?
Online account   activation
Subscribe
Licences IP
- Instructions for use
- Estimate request form
- Licence agreement
Order an issue
Pay-per-view articles
Newsletters
How can I publish?
Journals
Books
Help for advertisers
Foreign rights
Book sales agents



 

Texte intégral de l'article
 
  Printable version

Guidelines for human gene nomenclature


Annales de Biologie Clinique. Volume 60, Number 3, 347-50, Mai - Juin 2002, Pratique quotidienne


Résumé   Summary  

Author(s) : F. Wojcik, Laboratoire Saint-Philibert, rue du Grand-But, BP 249, 59462 Lomme.

Summary : As given the abundance of information on the human genome which as accumulated over the two past decades, the necessity of harmonizing the rules of nomenclature for human genes and mutations has become a demand of the scientific community. Indeed, the estimated number of human genes is about 35,000, and the number of mutations might be of the order of several millions. The purpose of this article is to present the recommendations for human gene nomenclature published by the HGNC (human gene nomenclature committee), as well as the main databases in which the reader may find or check the correct denomination of a human gene or mutation.

Keywords : Nomenclature - Human genes - Mutations - Genetics.

ARTICLE

En juin 2000, Francis Collins (du National institute of health, fondateur du projet Génome humain) et Craig Venter (président de Celera Genomics) ont annoncé le séquençage complet du génome humain. Les données sont accessibles à l'ensemble de la communauté scientifique sur le web, gratuitement sur le site du NCBI (National center of biotechnology information à http://www.ncbi.nlm.nih.gov/Entrez).

Le nombre de gènes humains, tout d'abord estimé à 150 000, devrait en réalité être compris entre 26 et 40 000 selon les dernières estimations fondées sur l'extrapolation de l'analyse de la densité des gènes prédits et connus des chromosomes 21 et 22 ou sur l'analyse informatique des homologies génétiques entre espèces [1, 2]. Collins et McKusick (du National human genome research institut) prédisent que la plupart des gènes impliqués dans les maladies telles que le diabète, les maladies cardiovasculaires ou les cancers seront identifiés d'ici 2010 [3]. La génétique étudie l'hérédité, la génomique s'intéresse à la structure du génome. La génomique fonctionnelle émerge comme l'étude de systèmes biologiques fondée sur la connaissance globale des génomes, des transcriptomes et des protéomes. Le but dans un futur proche est de construire des bases de données informatiques, où les mutations génomiques seront répertoriées, avec leurs relations ou non avec un phénotype ou une maladie donnée. Aussi la remise à jour des données doit-elle être permanente et supervisée par un Comité de pilotage composé de scientifiques spécialisés dans chaque domaine [4, 5].

Cet énorme travail de nomenclature, classement, et mise à disposition des données pour la communauté scientifique internationale suppose que le langage ainsi que les outils utilisés soient unanimement partagés par l'ensemble des scientifiques. C'est pourquoi des comités de nomenclature se sont réunis, pour établir des recommandations quant à la manière de dénommer à la fois les gènes, les transcrits et les protéines.

Le but de cet article est de présenter les principales recommandations de nomenclature utilisées pour dénommer les gènes humains et les mutations, ainsi que les sources et bases de données où le lecteur pourra se référer.

Définition d'un gène

La définition actuelle, utilisée par le Comité de nomenclature du génome humain, est qu'un gène est un segment d'ADN qui contribue à une fonction ou un phénotype [6]. Cependant, on peut prédire un gène ou des familles de gènes en étudiant les homologies de séquence de portions d'ADNc ou d'ARNm avec des séquences connues. Cela pose un problème de nomenclature puisque dans de nombreux cas, il existe des incertitudes sur le nombre exact de gènes dans une famille de gènes, ou sur leur désignation appropriée (fonction non encore démontrée).

La notion : « un gène traduit = une protéine » n'est valable que pour un certain nombre de gènes, puisqu'on a mis en évidence de nombreux mécanismes complexes de transcription ou de traduction des gènes, tels que l'épissage alternatif, l'épissage entre plusieurs gènes et l'existence des transcrits antisens. Pour ces problèmes complexes, la nomenclature devra s'adapter et, à l'heure actuelle, certaines dénominations sont encore débattues et pourront être remises en cause avec les progrès de la génomique fonctionnelle.

Les chercheurs sont invités à se mettre en rapport avec le comité de nomenclature responsable de la dénomination des gènes humains (HUGO gene nomenclature committee (HGNC), the galton laboratory, UCL, london UK), par l'intermédiaire de l'adresse suivante : nome@galton.ucl.ac.uk.

Règles de nomenclature pour les gènes humains

Les règles de nomenclature appliquées actuellement et revues par le HGNC sont disponibles sur le site : http://www.gene.ucl.ac.uk/nomenclature/guidelines.html/ et ont été publiées dans Genomics en 1997 [7]. Une récente mise à jour effectuée lors du dernier meeting du HGNC en octobre 2001 est accessible sur l'URL : http://www.gene.ucl.ac.uk/nomenclature/guidelines/draft_2001.html.

Gènes identifiés, dont la fonction est connue

Le nom du gène doit être court et spécifique et se rapporter directement à sa fonction, si elle est connue. Un symbole de gène doit comporter moins de six caractères, il s'écrit exclusivement en lettres latines et en chiffres arabes, sans espace entre les lettres et les chiffres ; les lettres expriment la fonction du gène et les chiffres se rapportent aux différents loci connus pour des gènes de fonction similaire. Pour faciliter le classement alphabétique et le regroupement des familles de gènes, le symbole et le nom du gène doivent commencer par la même lettre. Certaines lettres sont réservées à un usage spécifique : AP pour associated protein, BP pour binding protein, D ou DC pour domain containing, IP pour interacting protein, MT pour mitochondrial, R pour receptor, RG pour regulator, N ou NH pour inhibitor. Les nouveaux symboles doivent être différents de ceux déjà attribués ; les auteurs peuvent consulter la base de données des symboles disponible sur l'URL : http://www.gene.ucl.ac. uk/nomenclature/searchgenes.pl/. Quand on se réfère, dans une publication, à l'information d'ordre génotypique (le gène) le symbole doit être écrit en majuscules italiques (par exemple : HBA1 pour le gène codant pour l'hémoglobine A1) ; alors que lorsqu'on se réfère aux informations d'ordre phénotypique (la protéine), le symbole s'écrit en majuscules (par exemple : HBA1). Concernant les homologies de gènes entre espèces de vertébrés, il est recommandé d'attribuer les mêmes noms et symboles aux gènes orthologues dont la fonction est clairement connue : il existe une table des codes utilisés pour les espèces, établie par le comité de standardisation en cytogénétique humaine (à consulter sur le site). Par exemple, le gène codant pour la glucose 6 phosphate-déshydrogénase s'écrit : (HUMAN) G6PD pour le gène humain, où HUMAN désigne l'espèce Homo sapiens et (MOUSE) G6pd pour le gène murin, où MOUSE est l'abréviation réservée à la souris Mus musculus (par convention, dans les publications, les gènes humains s'écrivent en majuscules italiques et les gènes murins en minuscules italiques). Pour les gènes homologues des espèces procaryotes ou des invertébrés, il faut ajouter L pour like après le symbole, suivi éventuellement d'un chiffre, s'il y a plus d'un gène homologue.

Gènes identifiés à partir d'une séquence informative

Les gènes de fonction inconnue, prédits à partir de clusters d'EST (expressed sequence tags) ou à partir d'une séquence génomique seule sont considérés comme putatifs et désignés par l'origine chromosomique et un nombre arbitraire. La majuscule O ne doit pas être utilisée, pour éviter la confusion avec le zéro, qui peut faire partie du numéro d'un chromosome (par exemple : C2orf1 où orf = open reading frame). Ces symboles sont générés automatiquement par la base de données internationale Genbank et consultables sur le site du NCBI (National center of biotechnology : http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db= Nucleotide/).

Les pseudogènes sont des séquences d'ADN généralement non transcrites et non traduites, présentant une grande homologie avec un gène actif, dont ils dérivent par duplication/mutation ou par rétrotranscription (processed pseudogènes). Le pseudogène portera le même symbole que le gène, suivi de P pour pseudogène (par exemple : HBAP1 et HBAP2 pour les pseudogènes 1 et 2 de l'hémoglobine alpha).

Les séquences apparentées à un gène sont identifiées par cross-hybridation ou par analyse informatique des bases de données de séquences nucléotidiques (BLAST, FASTA). Ces séquences sont désignées par le symbole du gène apparenté connu, suivi de L pour like, suivi d'un numéro s'il existe plusieurs gènes similaires (par exemple : BTNL1, BTNL2 et BTNL3 sont les trois symboles des gènes similaires de la butyrophiline).

Une séquence de fonction inconnue comportant des exons chevauchants, située au même locus qu'un gène doit avoir son propre symbole. Si c'est un gène de régulation du premier gène, on lui ajoute le suffixe AS pour Antisens (par exemple : IGF2AS désigne le gène insulin-like growth factor 2, antisense. Au symbole des gènes de fonction inconnue, situés sur le brin opposé qui n'ont pas de fonction régulatrice prouvée, on ajoute le suffixe OS pour opposite strand.

Terminologie utilisée pour les allèles (mutations)

Un variant allélique est par définition un changement de nucléotide dans la séquence de référence de l'ADN génomique ; le plus souvent il s'agit de la substitution d'un nucléotide par un autre (appelé aussi SNP pour single nucleotide polymorphism) ; moins fréquemment, ce sont des délétions ou des insertions. Les mutations sont la source de variation génétique et de diversité phénotypique, certaines sont neutres, d'autres sont pathogènes [8].

On estime à plusieurs millions le nombre d'allèles à répertorier et à classer, en les reliant aux loci correspondants. De plus, la documentation sur les allèles va devenir très importante avec le développement de la génomique fonctionnelle qui consiste à lier les modifications phénotypiques à un ou plusieurs allèles correspondants. Depuis 1996, des comités internationaux se réunissent pour établir des recommandations sur la nomenclature des mutations. Les bases de données qui répertorient les mutations sont de deux types : bases de données de mutations génomiques et bases de données de mutations locus spécifiques.

Une première liste de recommandations de nomenclature pour les mutations a été publiée en 1998 par Antonarakis et le groupe de travail sur la nomenclature [9].

Pour les nucléotides

Un numéro unique d'identification doit être attribué à chaque nouvelle mutation entrée dans les bases de données. La numérotation des nucléotides d'un gène commence au codon d'initiation (le A du codon ATG de la méthionine est noté + 1, le nucléotide lié en 5' de l'ATG est noté - 1). On note un changement de nucléotide en commençant par le numéro du nucléotide puis le changement de nucléotide (par exemple : 1220G > A signifie que le G en position 1220 de la séquence de référence est remplacé par A). La même règle s'applique aux délétions (par exemple : 1220delT, ou pour plusieurs nucléotides délétés : 1220-1222delTTC) et les insertions s'écrivent : 330-331insA. Les variations en séquences courtes répétées s'écrivent par exemple : 1000(AT)5-10, ce qui signifie que le « tandem » AT peut se retrouver 5 à 10 fois dans une population donnée. Deux mutations dans un même allèle doivent s'écrire entre crochets, par exemple : [90A > T ; 105G > T].

Pour les acides aminés

La table de correspondance à une lettre doit être utilisée (par exemple : F pour phénylalanine). Le codon d'initiation de la méthionine est noté + 1. L'acide aminé de référence est noté avant le numéro du codon, suivi de l'acide aminé muté (par exemple : Y97S la tyrosine du codon 97 est substituée par la sérine). Les codons stop sont désignés par X (par exemple : R97X signifie que l'arginine du codon 97 est remplacée par un codon stop). Les délétions sont désignées par l'abréviation del (par exemple : T97del signifie que le codon 97 pour la thréonine est délété).

Les insertions sont désignées par l'abréviation ins (par exemple : T97-98ins indique que le codon pour la thréonine est inséré entre les codons 97 et 98 de référence de la protéine).

Cette première liste de recommandations a été complétée pour la nomenclature de mutations plus complexes [10].

Bases de données des mutations

Sur le site Internet de la HUGO mutation database initiative (http://www.genomic.unimelb.edu.au/mdi/dblist/dblist.html), une liste des bases de données de mutations est disponible, ainsi que les sites s'y référant [11]. Ce site, coordonné par Horaitis, de l'université de Melbourne, répertorie de nombreux liens pour les bases de données se référant à des mutations classées par « domaines » : « locus spécifiques », liées aux maladies multigéniques (maladies cardiovasculaires, diabète) ou aux maladies rares, dans une population donnée (israëlienne ou iranienne, par exemple), dans les génomes non humains, créées artificiellement, ou encore concernant des domaines d'étude particuliers (comme le favisme, par exemple).

Une liste d'une quarantaine de sites et liens concernant les SNP (mise à jour en novembre 2001) est aussi disponible sur l'URL : http://hgbase.cgr.ki.se/hgbase/ databases.htm.

Concernant la base de données du NCBI (dbSNP à http://www.ncbi.nlm.nih.gov/SNP/), les statistiques de janvier 2002 indiquent qu'il existe déjà plus de quatre millions de SNP soumis à la base de données pour le génome humain et près de 18 000 loci répertoriés dont plus de 14 000 reliés à la base de données OMIM (Online mendelian inheritance in man), catalogue de gènes humains et de maladies génétiques. Sur l'URL : http://www.ncbi.nlm.nih.gov/LocusLink/statistics.htm, les statistiques concernant le nombre de gènes humains enregistrés montrent qu'il existe plus de 10 000 gènes avec un symbole de la nomenclature officielle dont le produit est connu, et 558 gènes avec un symbole de la nomenclature officielle dont la fonction n'est pas connue, pour seulement 397 « phénotypes » enregistrés.

Cette richesse et cette complexité montrent toute l'importance d'un respect strict des règles de nomenclature dans les publications, afin d'éviter toute ambiguïté dans la dénomination d'un gène et/ou de sa protéine.

Article reçu le 27 juillet 2001, accepté le 1er février 2002.

REFERENCES

1. Venter JC, Adams MD, Myers EW, et al. The sequence of the human genome. Science 2001 ; 291 : 1304-51.

2. Rubin GM. The draft sequences: comparing species. Nature 2001 ; 409 : 820-1.

3. Collins FS, McKusick VA. Implications of the human genome project for medical science. JAMA 2001 ; 285 : 540-4.

4. Scriver CR, Nowacki PM, Leväshailo H. Guidelines and recommendations for content, structure, and deployment of mutation databases. Hum Mut 1999 ; 13 : 344-50.

5. Scriver CR, Nowacki PM, Leväshailo H and the working group. Guidelines and recommendations for content, structure, and deployment of mutation databases: II. Hum Mut 2000 ; 15 : 13-5.

6. White JA, Bruford EA, Wain HM, Povey S. Changing concepts of the gene. The Hugo Gene Nomenclature Commitee. http://www.gene.ucl. ac.uk/nomenclature/.

7. White JA, McAlpine PJ, Antonarakis SE, et al. Guidelines for human gene nomenclature. HUGO Nomenclature Commitee. Genomics 1997 ; 45 : 468-71.

8. Scriver CR, Nowacki PM. Genomics, mutations and the internet: the naming and use of parts. J Inhermetab Dis 1999 ; 22 : 519-30.

9. Antonarakis SE and the nomenclature working group. Recommendations for a nomenclature system for human gene mutations. Hum Mut 1998 ; 11 : 1-3.

10. Den Dunnen JT, Antonarakis SE. Mutation nomenclature extensions and suggestions to describe complex mutations: a discussion. Hum Mut 2000 ; 15 : 7-12.

11. Horaitis R. HUGO mutation database initiative (variation databases and related sites). http://www.genomic.unimelb.edu.au/mdi/dblist/ dblist.html


 

About us - Contact us - Conditions of use - Secure payment
Latest news - Conferences
Copyright © 2007 John Libbey Eurotext - All rights reserved
[ Legal information - Powered by Dolomède ]