Figures
Figure 1
Schéma illustrant le phénomène d’endogénisation virale.
Parmi une population de chiens, certains sont infectés par un virus exogène (points rouges) qui normalement infecte les cellules somatiques et se transmet de manière horizontale entre individus (flèches noires fines). Chez un des chiens infectés (#4), le virus est capable de pénétrer dans les cellules germinales et un fragment de son génome est intégré dans le génome de certains spermatozoïdes. L’intégration s’est produite par rétrotransposition d’un ARN viral, catalysée par la transcriptase inverse d’un rétrotransposon du chien. Le virus endogène (rectangle rouge) est flanqué d’un petit motif répété en 5′ et 3′ correspondant à la duplication de site cible caractéristique de la rétrotransposition. Le chien chez lequel l’intégration du virus se produit (#4) se reproduit avec un autre chien n’ayant pas de virus endogène. Ce croisement (X ) donne des chiens possédant une copie de virus endogène dans toutes leurs cellules (somatiques + germinales) et d’autres ne possédant pas de virus endogène (tous les gamètes du chien #4 ne possèdent pas le virus endogène). Si le virus endogène n’a pas d’effet délétère sur les chiens et/ou s’il a un effet bénéfique, la fréquence des individus porteurs de ce virus endogène peut augmenter dans la population, éventuellement jusqu’à fixation (tous les chiens possèdent le virus endogène).
Figure 1
Figure 2
Schéma illustrant un protocole de détection de virus endogènes dans des génomes hôtes.
Le TBLASTX, TBLASTN et BLASTP sont des programmes bioinformatiques permettant de comparer des séquences de différentes origines entre elles et de produire des alignements entre celles qui se ressemblent. Le TBLASTX traduit les séquences nucléotidiques du fichier requête (ici les génomes viraux) et des fichiers cibles (ici les génomes hôtes) dans les six cadres de lecture possibles et génère des alignements protéiques. Le TBLASTN compare les séquences protéiques du fichier requête (ici les protéines virales) aux séquences nucléotidiques traduites dans les six cadres de lecture possibles des fichiers cibles (ici les génomes hôtes). Il génère également des alignements protéiques. Les séquences protéiques des hôtes identifiées comme ressemblant aux virus à l’issu du premier TBLASTX/N sont comparées à toutes les séquences protéiques connues grâce au BLASTP. Cette deuxième étape de BLAST permet d’identifier des faux positifs, c’est-à-dire des protéines hôtes ressemblant à des protéines virales dont la présence dans les génomes viraux résulte de transfert horizontal relativement récent d’hôte à virus. En règle générale, quand elles sont comparées à toutes les protéines connues, ces protéines hôtes sont plus similaires à d’autres protéines eucaryotes (en rouge) qu’aux protéines virales identifiées lors de la première étape de BLAST (TBLASTX/N). Les protéines hôtes identifiées comme ressemblant à des protéines virales à la fois lors de la première étape BLAST (TBLASTX/N) et lors de la deuxième étape de BLAST (BLASTP) sont considérées comme des virus endogènes candidats (vert) devant être confirmé par PCR/séquençage.
Figure 2
Figure 3
Résumé des différents impacts connus des virus endogènes sur leurs hôtes.
Notons que l’impact d’un virus peut également être neutre. Dans ce cas, l’évolution de sa fréquence dans les populations hôtes sera directement dépendante de la taille efficace de ces populations.
Figure 3
Figure 4
Datation des virus endogènes.
A) Les rétrovirus endogènes peuvent être datés en divisant la distance génétique existant aujourd’hui entre leurs deux longues répétitions terminales (LTR) par deux et par le taux de substitution de l’hôte. En effet, lors de l’intégration par rétrotransposition d’un rétrovirus, ses deux LTR sont typiquement identiques. Le nombre de mutations différenciant ces LTR à un moment t est donc proportionnel au temps écoulé depuis intégration. B) Tous les virus endogènes peuvent être datés en les recherchant à la position orthologue dans les génomes d’autres espèces plus ou moins éloignées phylogénétiquement de celle chez laquelle ils ont été initialement caractérisés. Sur cet exemple, tiré de [52] , un Hepadnaviridae endogène est présent (+) à une position orthologue chez des passereaux Emberizidæ et Estrildidæ . Cet Hepadnaviridae est en revanche absent (-) de cette position orthologue chez l’autre passereau (Nectariniidæ ). Les temps de divergence entre les passereaux étant connus, on peut conclure que l’Hepadnaviridae endogène a plus de 25 millions d’années (MA) et moins de 35 MA. La famille Hepadnaviridae incluant les virus circulant actuellement chez les mammifères et les oiseaux a donc plus de 25 MA. Il est possible de calculer une approximation du taux de substitution des Hepadnaviridae sur le long terme en mesurant la distance entre le virus endogène et le virus actuel le plus proche (d). On peut ensuite soustraire de cette distance la distance due aux mutations survenues après endogénisation sur le virus endogène, calculée en comparant les séquences de virus orthologues entre Emberizidæ et Estrildidæ (d’). La distance obtenue (d-d’ = 0,43) peut alors être divisée par l’âge du virus endogène (25 MA) pour obtenir un taux de substitution sur le long terme.
Figure 4
Figure 5
Position phylogénétique des virus endogènes et âge des familles de virus actuels.
Dans l’arbre phylogénétique A, les Circoviridae endogènes datés à 40 millions d’années (MA) grâce, par exemple, à la méthode illustrée en figure 4 B, tombent en dehors de la diversité des Circoviridae circulant actuellement chez les animaux. L’âge des Circoviridae endogènes n’est donc pas informatif sur l’âge des Circoviridae actuels. Dans l’arbre B, les Circoviridae endogènes datés à 40 MA sont imbriqués au sein de la diversité des Circoviridae actuels. Leur âge peut donc être utilisé pour inférer l’âge des Circoviridae actuels, qui sont au moins aussi vieux que les Circoviridae endogènes (> 40 MA).
Figure 5
Authors
1 Université de Poitiers,
UMR CNRS 7267 Écologie et biologie des interactions,
Équipe Écologie évolution symbiose, bâtiment B8-B35,
6, rue Michel-Brunet, TSA 51106
86073 Poitiers cedex 9, France
2 Department of Human Genetics,
University of Utah School of Medicine,
Salt Lake City,
UT 84112,
États-Unis
Endogenous viruses are viral genomes that became integrated into the germline genome of their hosts and vertically inherited, from generation to generation, in host populations. Recent advances in genome sequencing have triggered the discovery of many non-retroviral endogenous viruses, showing that all types of eukaryotic viruses can become endogenous. This article first explains some of the methods that are used to systematically detect endogenous viruses in eukaryotic genomes and provides a detailed account of the various ways through which these viruses can shape the evolution of their host's genomes. It then shows how the discovery of endogenous viruses can shed new light on our knowledge of the origin and evolution of current viruses, as well as on the ecology of virus-host interactions. Finally, several research directions are proposed, and it is argued that an approach coupling paleovirology and virology can reveal the full complexity of the interactions between endogenous viruses, current viruses and their hosts.