Accueil > Revues > Médecine > Médecine thérapeutique > Texte intégral de l'article
 
      Recherche avancée    Panier    English version 
 
Nouveautés
Catalogue/Recherche
Collections
Toutes les revues
Médecine
Médecine thérapeutique
- Numéro en cours
- Archives
- S'abonner
- Commander un       numéro
- Plus d'infos
Biologie et recherche
Santé publique
Agronomie et Biotech.
Mon compte
Mot de passe oublié ?
Activer mon compte
S'abonner
Licences IP
- Mode d'emploi
- Demande de devis
- Contrat de licence
Commander un numéro
Articles à la carte
Newsletters
Publier chez JLE
Revues
Ouvrages
Espace annonceurs
Droits étrangers
Diffuseurs



 

Texte intégral de l'article
 
  Version imprimable
  Version PDF

Fiche statistique n° 2. Les statistiques descriptives de base suite : variance, écart-type, dispersion


Médecine thérapeutique. Volume 11, Numéro 2, 117-20, Mars-Avril 2005, Fiche statistique



Auteur(s) : Silvy Laporte , Unité de pharmacologie clinique, Groupe de recherche sur la thrombose (EA3065), CHU Saint-Étienne Bellevue, Saint-Étienne, France.

ARTICLE

Auteur(s) :, Silvy Laporte*

Unité de pharmacologie clinique, Groupe de recherche sur la thrombose (EA3065), CHU Saint-Étienne Bellevue, Saint-Étienne, France

Dans la fiche n° 1 (Médecine Thérapeutique ; Vol. 10, n° 3, mai-juin 2004), nous avions abordé les notions de moyennes et médianes, connues sous le nom de paramètres de tendance centrale. Nous allons aborder dans cette deuxième fiche la notion de dispersion autour de la tendance centrale. Pour ce faire, plusieurs solutions étaient possibles :
  • Faire un lexique avec toutes les définitions scolaires essentielles pour rentrer dans le vif du sujet, définitions aussi précises que repoussantes, ne permettant pas de séduire le clinicien dans sa formation à l’interprétation des statistiques.
  • Donner les formules complètes sans commentaire afin que chacun se fasse son opinion sur l’utilité de l’indice calculé compte tenu des éléments utilisés dans le calcul. On intéresserait ici une partie encore plus infime du public.
  • Tenter, dans la mesure du possible pour un statisticien, d’être plus littéraire sur les définitions et formules afin de vous convaincre de la simplicité et de l’utilité de ces paramètres dans l’interprétation des résultats des études cliniques.
Compte tenu des fortes insistances du rédacteur en chef, nous avons opté pour la dernière solution.Pour une lecture optimale de cette fiche, il est judicieux de lire tout d’abord la fiche n° 1. Nous utiliserons d’ailleurs le même tableau de données : il s’agissait d’une cohorte prospective ayant inclus 1 000 patients présentant un contrôle glycémique perturbé (HbA1C supérieur à 6,5 %). Tous les patients ont été traités pour une durée de 6 mois avec un nouvel antidiabétique oral. Les données concernant cette cohorte et les résultats à 1 an sont résumés tableau 1( Tableau 1 ).

La notion de dispersion

Retour à l’école une fois de plus. Deux élèves de la même classe de 3e comparent leur moyenne générale : tous les deux ont 10/20 de moyenne (coefficient 1 pour toutes les matières). Les deux élèves sont donc tout à fait similaires. On peut même regarder leur médiane : idem, elle est de 10 aussi. Les deux élèves ont le même espoir de passage en seconde. Pour autant, si on regarde les notes de plus près, l’élève X a 1 note de 2/20, 9 notes de 8/20, 9 notes de 12/20 et 1 note de 18/20, l’élève Y a 10 notes de 2/20 et 10 notes de 18/20 : ces élèves sont bien différents ! La moyenne et la médiane ne permettent pas de nous donner cette information pourtant non négligeable, ce n’est d’ailleurs pas leur fonction. Il nous faut alors d’autres paramètres : on pourrait regarder le minimum et le maximum, mais là aussi on reste sur notre faim, 2 et 18 chez les 2 élèves. Pourtant, les deux élèves sont foncièrement différents : l’élève X est plutôt stable, assez constant, peu « variable » d’une matière à l’autre, avec des notes peu « dispersées » autour de la moyenne. À l’inverse, l’élève Y présente des notes très différentes, très « variables », très dispersées autour de la moyenne.

Afin d’appréhender la notion de dispersion, ce cas simple est transposable à votre patient traité par AVK au long cours en prévention secondaire d’événements thromboemboliques. Depuis un an, son INR moyen est de 2,6. Est-il pour autant bien soigné, avec une cible bien atteinte ? La moyenne ne permet pas de répondre, et la question ici coule de source : « Est-il stable autour de 2,6 ? » Par cette question de clinicien éclairé, vous abordez la question statistique suivante : « Quelle est la valeur de l’écart-type ? » ou « Le patient est-il en général proche de 2,6 ou loin de 2,6 ? ». Seul le vocabulaire est différent.

On entend ainsi par variabilité ou dispersion toutes ces notions d’écart par rapport à une valeur centrale. Il s’agit de termes généraux, ne correspondant pas à un paramètre en particulier.
Tableau 1 Description de la cohorte et résultat à 1 an

description

A l’inclusion

Sexe : nombre d’hommes (%)

626 (62.6%)

Age, années (moyenne ± écart-type)

63,4 ± 12,2

Ancienneté du diabète, mois (médiane)

12,4

Niveau d’HbA1c, % :

– moyenne ± écart-type

7,1 ± 2,2

– médiane (étendue)

6,8 (6,5 – 8,7)

En fin de traitement

Niveau d’HbA1c, % :

– moyenne ± écart-type

6,4 ± 2,0

– médiane (étendue)

6,4 (6,1 – 8,8)

Événements cardiovasculaires (%)

22 (2,2%)

Les paramètres usuels de dispersion : l’écart-type, la variance, le coefficient de variation

Dans le tableau 1, l’âge moyen est de 63,4 ans, complété par une valeur de 12,2 ans. Cette valeur, qui s’exprime dans la même unité que la moyenne, représente l’écart-type. Si on voulait transcrire grossièrement ce que cela signifie, c’est l’écart de toutes les valeurs à la moyenne.

Imaginons cependant un cas simple à calculer avec 5 valeurs : 30, 30, 40, 40 et 60. La moyenne est de 40 ans (30 + 30 + 40 + 40 + 60 / 5). Pour savoir si la population étudiée est relativement homogène, il est nécessaire d’évaluer l’écart des valeurs individuelles à la moyenne, et d’en faire la somme pour avoir un indice parlant, voire même d’évaluer la moyenne de ces écarts. Ici la somme des écarts vaut (30 – 40) + (30 – 40) + (40 – 40) + (40 – 40) + (60 – 40) soit (– 10) + (– 10) + 0 + 0 + 20 = 0. Et oui, la somme fait 0 ! Cela ne signifie pas que la dispersion est nulle, c’est simplement une propriété mathématique de la moyenne : elle est exactement au centre des valeurs, et la somme des écarts de toutes les valeurs à la moyenne est toujours nulle, les écarts positifs compensant exactement les écarts négatifs.

Il faut donc trouver une astuce mathématique pour construire un paramètre basé sur le même principe : on pourrait prendre les valeurs absolues, mais ce n’est pas très commode à utiliser ; on a alors choisi d’utiliser le carré de ces écarts afin de ne plus avoir les écarts positifs qui compensent les écarts négatifs. Ici on aurait donc (– 10)2 + (– 10)2 + 02 + 02+ 202. La moyenne de ces écarts est donc 100 + 100 + 0 + 0 + 400 / 5 = 600/5 = 120. Vous venez ici de calculer une variance (qui correspond en bon français à la moyenne des carrés des écarts à la moyenne). Attention à la confusion, la variance, ce n’est rien de plus qu’une moyenne, non pas une moyenne des valeurs mais une moyenne des écarts au carré.

Le problème de cette variance est qu’il s’agit d’un paramètre correspondant à des ans², d’où cette valeur très forte de 120 ! Pour exprimer la dispersion en années, on en prend la racine carrée soit ans. La moyenne est donc de 40 ans avec un écart-type de 10,9 ans.

La première leçon est que la variance en elle-même est inutile, elle est juste un intermédiaire statistique au calcul de l’écart-type (en anglais Standard deviation).

Pour interpréter l’écart-type, on dit que grosso modo, les valeurs d’âge s’écartent de plus ou moins 10,9 ans (disons 11 ans) autour de la moyenne de 40 ans. Est-ce beaucoup ? Tout est relatif, 11 est fort par rapport à 40 car 11/40 = 27 %. Si on avait une dispersion de 11 ans sur une population d’âge moyen de 80 ans, ce serait tout à fait différent, on aurait 11/80 soit 14 % de variabilité. Le fait de rendre relatif l’écart-type par rapport à la moyenne est le coefficient de variation : il exprime, en pourcentage, l’importance de la variabilité par rapport à la valeur centrale. Cet indice est très utile lorsque l’on a des populations à comparer dont la moyenne est différente. Sous une HBPM X, la moyenne des activités anti-Xa 4 h après injection d’une dose curative vaut 0,8 ± 0,4 UI aXa. Sous dose préventive, 4 heures après, la moyenne est de 0,4 ± 0,3 UI aXa. Peut-on penser que la dispersion des pics d’activité anti-Xa est plus faible en cas de traitement préventif par rapport à un traitement curatif uniquement parce que l’écart-type est plus petit (0,3 UI aXa versus 0,4) ? En réalité, relativement à la valeur moyenne, le coefficient de variation est de 50 % sous dose curative versus 75 % sous traitement préventif, soit finalement une dispersion plus importante...

En synthèse, les paramètres les plus utilisés et les plus utiles sont l’écart-type et le coefficient de variation, la variance n’étant qu’un intermédiaire mathématique. Existe-t-il d’autres paramètres de dispersion ?

Étendue, écart inter-quartiles

L’étendue (en anglais Range) est probablement l’indice de dispersion le plus simple puisqu’il correspond au minimum et au maximum des valeurs observées. Elle est utile pour connaître les valeurs extrêmes, mais constitue un résumé trop grossier de la dispersion. Si on reprend nos deux élèves de 3e, ils ont tous les deux la même étendue (2-18), et pourtant nous avons vu que nos deux élèves étaient fort différents avec respectivement un écart-type de 3,2 et 8 (faites les calculs pour vous entraîner…).

Enfin, il est difficile d’évaluer des écarts à la moyenne si on considère que la moyenne est un résumé inadapté (cf. fiche n° 1) et qu’il faut parfois préférer la médiane, qui partage la population en 50 % en dessous et 50 % en dessus. Pour avoir un paramètre de dispersion en accord avec la médiane, on évalue les quartiles Q1 et Q3 : le 1er quartile Q1 partage la population en 25 % des valeurs les plus basses et 75 % les plus hautes, le 3e quartile Q3 partage en 75 % et 25 % (le 2e quartile est la médiane 50 % – 50 %). Si Q1 vaut 35 ans et Q3 vaut 70, cela signifie que 25 % des patients a moins de 35 ans et 25 % des patients a plus de 70 ans. Ou encore que 75 % des patients a moins de 70 ans, ou encore que 75 % des patients ont plus de 35 ans. On retient en général l’expression la plus parlante cliniquement.

L’écart inter-quartiles consiste à calculer l’écart entre ces deux valeurs, relativement à la médiane. Si nous reprenons l’âge des 5 patients, 30, 30, 40, 40, 60, la médiane est de 40 ans, Q1 vaut 30 ans et Q3 vaut 50 ans (valeur entre 40 et 60), soit un écart inter-quartiles de 30-50 (en anglais Inter-quartile range). On dit que 50 % des patients sont âgés entre 30 et 50 ans.

On pourrait aussi calculer un coefficient de variation par l’écart inter-quartiles rapporté à la médiane soit 20/40 = 50% mais en pratique, il est peu utilisé. Si vous le croisez, sachez néanmoins qu’il n’est point farfelu.

Quel rapport avec l’intervalle de confiance ?

Toutes les statistiques de dispersion que nous venons d’évoquer sont des statistiques qui restent descriptives, c’est-à-dire qui concernent l’échantillon et lui seul. Il n’y a pas de notion de risque, c’est une observation. Ces statistiques vont être utilisées pour pouvoir réaliser des estimations pour l’ensemble de la population, avec cette fois-ci un risque d’erreur à introduire compte tenu de l’extrapolation que l’on va réaliser pour généraliser les résultats de l’échantillon à l’ensemble de la population.

Cette démarche va concerner bien sûr les caractéristiques de base des patients mais aussi les résultats observés en fin de traitement. On peut par exemple calculer la moyenne et la variance du contrôle glycémique mesuré par l’HbA1c chez des patients diabétiques de type II traité pendant 6 mois (6,4 % ± 2,0 dans le tableau 1). Ces données descriptives vont permettre de fournir un encadrement de la vraie valeur que l’on cherche à estimer, et cet encadrement est fourni par l’intervalle de confiance. L’intervalle de confiance permet d’exprimer la précision d’une estimation (par exemple ici une moyenne) sous l’hypothèse de normalité (cf. Médecine Thérapeutique ; Vol. 10, n° 2, mars-avril 2004). Au niveau de l’interprétation, dans notre essai, l’HbA1c est de 6,4 % ± 2,0 après 6 mois de traitement ; l’intervalle de confiance est [6,3 ; 6,5] et signifie qu’il y a 95 % de chances qu’après 6 mois de traitement l’HbA1c soit compris entre 6,3 % et 6,5 %.

La borne inférieure (B–) et la borne supérieure (B+) d’un intervalle de confiance se calculent à partir de la moyenne (m) et de l’écart-type (ET) par :et respectivement :

Ce calcul fait donc intervenir les statistiques descriptives calculées ainsi que d’autres valeurs :

  • Tout d’abord, la valeur 1,96 permettant, compte tenu de la loi normale, d’obtenir 95 % de chances pour que la valeur vraie soit dans l’intervalle de confiance. Cette valeur aurait été de 1,64 pour calculer un intervalle de confiance à 90 %.
  • Le second, l’effectif n, donnant ainsi une précision d’estimation : il est bien évident qu’une moyenne évaluée sur un grand nombre de sujets est plus fiable et plus précise qu’une moyenne évaluée sur seulement quelques patients. Par l’introduction de l’effectif, on détermine ainsi une dispersion/précision :  : cette fraction est appelée l’écart-type de la moyenne (en anglais Standard error ou Standard error of the mean) car elle permet un calcul direct de la précision de la moyenne. L’écart-type de la moyenne (ETM) est souvent utilisé notamment dans les figures de part et d’autre du point moyen, car il minimise artificiellement ce que le lecteur pense être une expression de l’intervalle de confiance à 95 % (c’est-à-dire calculé par m ± 1,96 × ETM) alors qu’en réalité il s’agit d’un intervalle à 70 % (m ± 1 × ETM). L’ETM n’est ici qu’un intermédiaire mathématique permettant de déterminer l’intervalle de confiance.

En conclusion, un simple résultat central doit être assorti de sa dispersion pour permettre une description précise des résultats. Cette dispersion permet aussi de calculer la précision de l’estimation d’un effet, par exemple l’intervalle de confiance d’une différence de moyennes de cholestérol entre deux thérapeutiques différentes étudiées au cours d’un essai randomisé.


 

Qui sommes-nous ? - Contactez-nous - Conditions d'utilisation - Paiement sécurisé
Actualités - Les congrès
Copyright © 2007 John Libbey Eurotext - Tous droits réservés
[ Informations légales - Powered by Dolomède ]