ARTICLE
Auteur(s) : Grégoire Le Gal
Département de Médecine interne et Pneumologie, Centre
hospitalier universitaire La Cavale Blanche, Boulevard
Tanguy-Prigent, 29609 Brest Cedex
La démarche scientifique invite le lecteur d’un article médical
à toujours adopter une attitude critique vis-à-vis de ce qu’il lit.
Ainsi, la lecture d’articles scientifiques fait l’objet d’ouvrages
ou d’enseignements permettant de juger de la validité, de
l’importance et de l’applicabilité d’une étude. Au-delà, le lecteur
doit également mettre en perspective ce qu’il lit avec des
informations plus générales sur la littérature médicale. Il lit
l’un des 2 000 000 d’articles biomédicaux publiés
chaque année dans le monde par environ 20 000 revues
différentes. Il est parfois difficile de s’y retrouver. Comment
évaluer une bonne revue ? Prestige, nombre d’abonnés,
composition du comité de rédaction, nombre d’articles soumis et
pourcentage d’acceptés pour publication, facteur d’impact,
etc. ? Il est par ailleurs bien évident qu’il existe entre ces
revues une « course à l’audience », voire au
scoop. Une étude sera d’autant plus volontiers publiée
qu’elle rapporte un résultat « significatif »
(identification d’une nouvelle association entre un facteur de
risque potentiel et une maladie en épidémiologie, supériorité d’un
nouveau médicament en thérapeutique). Enfin, le « manque de
puissance » des études (nous verrons ce qui se cache derrière
cette expression) peut être un autre facteur limitant la qualité de
l’information à notre disposition. Alors, que doit faire le
lecteur ? Cela peut-il avoir des conséquences pour
l’interprétation des résultats et leur intégration à notre pratique
médicale ?
Le facteur d’impact
L’un des outils de « classement » de ces revues est le
facteur d’impact (en anglais impact factor). Le facteur
d’impact d’une revue est calculé par l’ISI (Institute for
Scientific Information) de façon annuelle et publié dans le
Journal Citation Reports. C’est la fréquence moyenne avec
laquelle un article paru dans cette revue est cité par l’ensemble
des autres revues scientifiques au cours de la période suivant sa
publication (figure 1).
A nombre d’articles publiés égal, plus les articles publiés dans
une revue seront cités ultérieurement, plus son facteur d’impact
sera grand. Il est ainsi proposé comme un outil de mesure
permettant le classement, l’évaluation et la comparaison des
différentes revues entre elles et est utilisé par les lecteurs, les
auteurs, les revues, les journalistes, les annonceurs
publicitaires, etc. Il est devenu également un outil d’évaluation
académique, un des moyens d’évaluer l’importance des travaux
publiés par un chercheur.
Il faut toutefois en faire un usage très prudent. En effet, la
publication par exemple d’articles de révision par les grandes
revues généralistes contribue à renforcer leur facteur d’impact car
ces revues de la littérature sont souvent citées par la suite,
alors même que ces articles n’apportent rien de nouveau sur le plan
scientifique. Le domaine d’application de la revue joue également
un rôle, le rang d’une revue dans sa spécialité étant au moins
aussi important que la valeur absolue de son facteur d’impact.
L’autocitation, largement répandue, consiste à citer en priorité
dans une revue des articles publiés dans les numéros précédents de
cette même revue. Elle conduit également à une surévaluation de
l’impact.
Il existe enfin au sein des revues une certaine recherche du
scoop, qui sera toujours cité par la suite dans les
publications sur le même sujet, même si celles-ci viennent infirmer
le résultat initial. Elles n’en auront que plus de mal à être
publiées ! C’est le biais de publication. Ainsi, un travail de
recherche est plus volontiers publié, et publié dans une revue de
fort impact, s’il rapporte des résultats significatifs [1].
Des résultats « significatifs »…
Mais qu’est-ce qu’un résultat significatif ? Imaginons
qu’une firme pharmaceutique ait développé un nouvel
anti-thrombotique (c’est d’actualité), dont elle pense qu’il
préviendrait mieux la survenue d’une thrombose après une chirurgie
que nos désormais classiques héparines de bas poids moléculaire
(HBPM)... Bien sûr, nous n’allons pas l’adopter d’emblée et, avant
de l’utiliser pour nos patients, nous voulons une démonstration de
son efficacité. Autrement dit, jusqu’à ce qu’on nous prouve qu’il
est plus efficace que les médicaments déjà disponibles, nous
considérons qu’il n’est pas meilleur : c’est la démarche
scientifique.
Nous voilà donc investigateurs, cherchant à évaluer ce nouvel
anti-thrombotique comparé aux HBPM. Nous menons (bien) notre
étude : randomisée, en double aveugle, chez des patients bien
définis, en nombre suffisant, avec un critère de jugement reconnu,
disons le risque de thrombose à 8 jours tel qu’exploré par une
phlébographie. Quelques semaines plus tard, à l’analyse des
résultats, la proportion de patients ayant développé une thrombose
est plus faible chez ceux qui ont reçu le nouvel anti-thrombotique
que chez ceux traités par HBPM, disons 8 contre 15 %.
Parfait ! Mais cette différence est-elle due réellement à une
plus grande efficacité du nouvel anti-thrombotique ? Ou ne
s’est-elle pas produite du fait du hasard alors même qu’il
n’est pas meilleur ? Autrement dit, est-elle
« significative » ? C’est-à-dire assez importante
pour que nous puissions affirmer qu’elle n’est pas due au hasard.
En effet, si les deux traitements avaient la même efficacité, nous
aurions dû avoir autant de thromboses dans les deux groupes, par
exemple 12 % dans chaque groupe. Bien sûr, le hasard peut
faire que ces pourcentages diffèrent dans une certaine mesure alors
même que les traitements sont équivalents (parce que, même s’ils
ont été randomisés, les patients ne sont pas exactement les mêmes,
etc.), mais jusqu’à quel point ?
C’est ici qu’intervient la statistique (et que les choses se
compliquent !). Pour savoir si la différence que nous avons
observée est significative, nous allons employer le test ad
hoc (ici par exemple un chi-2 : comparaison des
proportions de patients avec thrombose dans les deux groupes). Ce
test va nous dire quelle était la probabilité d’observer du fait du
hasard dans notre étude – si les deux traitements sont
équivalents – 15 % de thrombose dans un groupe et
8 % dans l’autre. Cette probabilité, c’est le « petit
p ». Si p = 0,01, cela veut dire que, dans notre
étude, nous avions si les deux traitements étaient identiques,
1 chance sur 100 d’observer du fait du hasard 15 %
de thromboses sous HBPM et 8 % avec le nouvel
anti-thrombotique. Poursuivons le raisonnement. Un pour cent, c’est
peu ! Il y a très peu de chance d’avoir une telle différence
entre les deux groupes si les traitements sont équivalents. Nous
nous autorisons alors à dire qu’ils ne le sont pas ! Et nous
acceptons que le nouvel anti-thrombotique est bien meilleur. Notons
bien que nous avons 1 % de risque de nous tromper en disant
cela, puisqu’il y avait 1 chance sur 100 que ces deux
proportions de thromboses surviennent pour deux médicaments
équivalents du fait du hasard. À partir de quelle valeur
étions-nous en droit de dire cela ? La valeur la plus
couramment utilisée est 5 %. En dessous de 5 %, on
conclut en général à la différence entre les deux traitements
comparés. Autrement dit, 5 %, c’est aussi le risque maximum
accepté de se tromper en affirmant qu’il existe une différence
(alors que cette différence n’existerait pas). Cette valeur limite
est appelée « seuil de risque α ». En résumé, la
probabilité de constater dans notre étude une telle différence
entre les deux groupes en l’absence de différence réelle entre les
deux traitements (le petit p) est inférieure au risque accepté de
se tromper en affirmant qu’ils diffèrent (le seuil α), alors nous
rejetons l’hypothèse selon laquelle ils sont équivalents (on parle
d’« hypothèse nulle ») et concluons à une différence
significative entre les deux traitements.
Et la puissance dans tout cela ?
Outre le risque de se tromper en affirmant que l’HBPM et le
nouvel anti-thrombotique n’étaient pas équivalents,
l’interprétation des résultats de notre étude comportait un autre
risque : celui de n’avoir pas pu montrer – alors
qu’elle existait – la supériorité du nouvel
anti-thrombotique sur l’HBPM. En effet, s’il est vrai que cette
nouvelle molécule prévient mieux la thrombose, nous avons besoin de
le savoir pour pouvoir en faire bénéficier les patients. Il serait
alors dommage de faire une telle étude sans être sûr qu’elle soit
capable de montrer la supériorité du nouvel anti-thrombotique. La
capacité d’une étude à mettre en évidence une différence, c’est sa
puissance. Si la puissance de notre étude était de 80 %, cela
veut dire qu’elle avait 80 % de chances de mettre en évidence
la différence existante entre nos deux molécules. Cela veut dire
aussi qu’il existait un risque de 20 % qu’elle ne soit pas
capable de le faire (on l’appelle le « risque β »).
Ainsi, lors de la planification de l’enquête, l’investigateur
doit se poser la question du niveau acceptable pour les
risques : le risque de conclure à tort à une différence
(risque α), mais aussi la puissance qu’il souhaite pour son étude.
Le choix du risque α dépend avant tout des inconvénients (au sens
large) qu’il y aurait – reprenons notre
exemple – à conclure à tort à une plus grande efficacité
du nouvel anti-thrombotique alors qu’elle n’est pas réelle. Le
nombre de sujets qu’il est nécessaire d’inclure dans l’étude pour
assurer sa puissance peut (et doit) être calculé à l’avance. Il
dépend du risque α, de la puissance et de la différence qu’il veut
pouvoir mettre en évidence.
S’il est connu que le taux de thromboses sous HBPM après
chirurgie est par exemple de 15 %, voulons-nous nous donner de
bonnes chances de mettre en évidence avec le nouvel
anti-thrombotique un taux significativement différent de 14, 12 ou
10 % de thromboses ? Imaginons des proportions très
différentes (60 % dans un groupe, 20 % dans l’autre).
Mettre en évidence une telle différence sera difficile par exemple
dans une étude sur 10 patients (5 par groupe), où l’on voit
aisément qu’elle peut être due au hasard (3 thromboses dans un
groupe, une dans l’autre ; et il suffirait d’une thrombose de
plus dans le premier groupe et d’une de moins dans le second pour
que les deux proportions soient identiques). Sur 100 patients,
la probabilité que ces proportions observées soient dues au hasard
est déjà nettement plus faible. Et il nous faudrait inclure
beaucoup plus de patients encore si nous voulions pouvoir
montrer – si nous la jugeons intéressante – une
diminution du taux d’événements de 15 à 14,5 % !
Trop souvent, la puissance est négligée par les auteurs. Ceux-ci
se contentent de comparer au seuil α le petit p du test et tirent
des conclusions sans prendre en compte la puissance. Ce type
d’approche est, il est vrai, conventionnel en
épidémiologie dans les études d’observation : étude de
l’association entre un facteur de risque et une pathologie par
exemple. Dans le cadre de l’essai contrôlé randomisé en revanche,
le respect de l’ensemble des conditions citées (choix du seuil α et
de la puissance, inclusion d’un nombre suffisant de sujets pour
mettre en évidence la différence jugée intéressante tout en
garantissant les risques fixés) est un préalable à l’interprétation
des résultats du test. La possibilité de juger du caractère
significatif ou non de la différence retrouvée par l’ultime étape
du test, la comparaison du petit p au seuil α n’est garantie que si
l’ensemble des conditions définies au préalable a été respecté.
Pour résumer, si je peux dire – parce que p est
inférieur à α – que je conclue à une différence entre les
traitements avec un risque faible de me tromper, c’est aussi parce
que je me suis donné de bonnes chances de mettre en évidence cette
différence si elle existait. L’absence de prise en compte de la
puissance peut avoir pour conséquence la non-mise en évidence par
l’étude, si le résultat n’apparaît pas significatif, d’une
différence existante (le nouvel anti-thrombotique ne serait alors
pas retenu alors qu’il était meilleur que l’HBPM), alors que, à
l’inverse, tout résultat significatif sera attribué, parfois à
tort, à une différence vraie entre les traitements.
Implications pour la lecture de la littérature médicale
Quelles en sont les conséquences au niveau de la littérature
médicale en général ? Etablissons un parallèle entre une étude
clinique et un test diagnostique. La capacité d’un test
diagnostique à reconnaître une maladie s’évalue par sa
sensibilité (proportion de patients ayant un test positif
parmi les cas) et par sa spécificité (proportion de patients
présentant un test négatif parmi les cas indemnes). La sensibilité
d’un test peut être rapprochée de la puissance d’une étude
(probabilité que l’étude soit significative si les traitements
diffèrent) et la spécificité peut être du risque α (ou plus
exactement de 1-α, probabilité que l’étude soit significative alors
que les deux traitements sont équivalents). Sensibilité et
spécificité sont des caractéristiques propres du test qui ne
dépendent que de sa capacité à reconnaître la maladie. En revanche,
l’information utile pour le clinicien est : « mon patient
a un test positif, quelle est la probabilité qu’il ait la
maladie ?». C’est la valeur prédictive positive. Elle
ne dépend cette fois pas que de la capacité du test à reconnaître
la maladie, mais aussi de la prévalence de la maladie dans la
population testée. En effet, la proportion de malades parmi les
sujets ayant un test positif va dépendre du nombre de malades ayant
un test positif mais également du nombre de sujets indemnes mais
avec un test positif. Plus la prévalence de la maladie sera faible,
plus ce nombre de sujets dits « faux positifs » sera
grand (d’autant plus si la spécificité est faible).
Il en va de même des études cliniques. Reprenons l’exemple
numérique donné par Sterne et Davey Smith dans un article publié
dans le British Medical Journal en 2001 [2]. Ces
auteurs sont partis de deux hypothèses de travail : admettons
tout d’abord que 10 % des hypothèses émises par les chercheurs
(concernant l’association entre un facteur de risque et une
pathologie ou la supériorité d’un traitement sur un autre) soient
vraies. Ce chiffre peut même être jugé optimiste vu la multiplicité
des hypothèses testées. Par ailleurs, nous l’avons dit, la
puissance est souvent négligée et largement insuffisante dans les
études publiées [3]. Supposons qu’elle soit en moyenne de 50 %
dans la littérature. Le choix de ces deux chiffres peut paraître
arbitraire, mais nous les modifierons par la suite. Selon ces deux
hypothèses, 1 000 études cliniques réalisées
(100 correspondant à des hypothèses justes et 900 à des
erronées) se répartiraient alors de la façon suivante (tableau 1). Parmi les 100 hypothèses de
recherche justes (les deux traitements diffèrent vraiment), seules
50 vont être mises en évidence, puisque la puissance, la
probabilité de mettre en évidence une différence qui existe, est de
50 %. Parmi les 900 hypothèses de travail fausses (les
deux traitements ne diffèrent pas), le risque α fait (si le seuil
retenu est de 5 %) que le test va conclure à tort à une
différence entre les traitements dans 5 % des cas,
c’est-à-dire pour 45 études sur 900.
Tableau 1. Répartition de
1 000 études réalisées (proportion d’hypothèses de
recherche vraies : 10 %, α : 5 %,
puissance : 50 %)
|
Conclusion de l’étude |
Les deux traitements sont différents |
Les deux traitements sont équivalents |
|
|
Différence significative |
50 |
855 |
905 |
|
Absence de différence significative |
50 |
45 |
95 |
|
|
100 |
900 |
1 000 |
Nous voyons dans notre exemple que, sur les 95 fois où il a
été conclu à une différence entre les traitements, ceux-ci
n’étaient réellement différents que 50 fois, c’est-à-dire à
peine plus d’une fois sur deux ! Dans notre exemple, la valeur
prédictive positive d’un résultat significatif, c’est-à-dire la
probabilité qu’un résultat significatif corresponde à une
« vraie » différence, est de 52,5 %. À l’inverse,
47,5 % des études significatives publiées correspondent à une
hypothèse de départ fausse. Ceci ne serait pas (ou moins) un
problème si toutes les études non significatives étaient connues
mais, nous l’avons vu, le biais de publication fait que les
95 études « significatives » ont une probabilité
beaucoup plus grande d’être publiées…
Que faire ?
Sterne et Davey Smith montrent la façon dont varie cette valeur
prédictive positive d’un résultat significatif quand on modifie les
hypothèses de travail adoptées plus haut et le seuil du risque α
(tableau 2). Nous pouvons y lire
que, pour assurer un nombre faible d’études « fausses
positives », il faudrait : 1) pouvoir garantir un
niveau de puissance bien plus élevé, en augmentant le nombre de
sujets inclus dans les études notamment ; 2) être plus
exigeant sur le seuil de risque α ; 3) ne tester que les
hypothèses les plus sérieuses, appuyées par un raisonnement
physiopathologique ou par une recherche bibliographique, ne pas se
livrer dans les études à des analyses « tous azimuts »,
en sous-groupes, etc. Rappelons que le seul risque α fait que,
quand au cours de l’analyse des résultats d’une étude sont
pratiqués 100 tests statistiques, 5 seront significatifs
du seul fait du hasard (si le seuil choisi est de 5 %), et que
la probabilité qu’aucun des 100 tests réalisés ne soit
significatif n’est que de 5 pour 1 000 (0,95100).
Il faut dire que la méthode des tests d’hypothèse a été décrite
dans la première moitié du vingtième siècle, avant l’avènement de
l’informatique et la multiplication des possibilités de calcul
ainsi offerte.
Tableau 2. Proportion d’études
significatives « fausses positives » en fonction de la
proportion d’hypothèses justes, de la puissance et du seuil α
|
|
Pourcentage d’études significatives
« fausses positives » |
|
Puissance de l’étude |
p = 0,05 |
p = 0,01 |
p = 0,001 |
|
80 % d’hypothèses de recherche vraies |
|
|
|
|
20 |
5,9 |
1,2 |
0,10 |
|
50 |
2,4 |
0,5 |
0,05 |
|
80 |
1,5 |
0,3 |
0,03 |
|
50 % d’hypothèses de recherche vraies |
|
|
|
|
20 |
20,0 |
4,8 |
0,50 |
|
50 |
9,1 |
2,0 |
0,20 |
|
80 |
5,9 |
1,2 |
0,10 |
|
10 % d’hypothèses de recherche vraies |
|
|
|
|
20 |
69,2 |
31,0 |
4,30 |
|
50 |
47,4* |
15,3 |
1,80 |
|
80 |
36,0 |
10,1 |
1,10 |
|
1 % d’hypothèses de recherche vraies |
|
|
|
|
20 |
96,1 |
83,2 |
33,10 |
|
50 |
90,8 |
66,4 |
16,50 |
|
80 |
86,1 |
55,3 |
11,00 |
Au-delà de ces recommandations à l’échelon de la recherche
médicale en général, quelles recommandations peuvent être faites au
lecteur clinicien ? Avant de transposer les données d’une
étude à sa pratique médicale, il faut bien sûr s’interroger sur la
qualité intrinsèque de l’étude, ce n’est pas ici notre propos, mais
aussi sur sa place dans la littérature concernant le sujet. C’est
pourquoi la démarche de la médecine basée sur les faits démontrés
nous invite à rechercher en priorité les informations fournies par
les méta-analyses d’essais randomisés, fournissant une évaluation
globale d’une thérapeutique basée sur l’ensemble des essais
cliniques randomisés parus la concernant. La démarche de la
Collaboration Cochrane est d’autant plus intéressante à cet égard
qu’elle s’attache en particulier à retrouver toutes les études
réalisées sur un médicament publiées et non publiées, en
particulier auprès des laboratoires pharmaceutiques, limitant ainsi
le risque de sélection par la littérature des quelques résultats
significatifs obtenus du fait du hasard.
Références
1. Easterbrook PJ, Berlin JA, Gopalan R, Matthews
DR. Publication bias in clinical research. Lancet
1991 ; 337 : 867-72.
2. Sterne JA, Davey Smith G. Sifting the
evidence-what’s wrong with significance tests ? Br Med
J 2001 ; 322 : 226-31.
3. Moher D, Dulberg CS, Wells GA. Statistical power,
sample size, and their reporting in randomized controlled trials.
JAMA 1994 ; 272 : 122-4.
|