Texte intégral de l'article
 
   

Littérature médicale : lecteurs, restons critiques ¡


Médecine thérapeutique. Volume 10, Numéro 2, 108-12, Mars-Avril 2004, Méthodologie



Auteur(s) : Grégoire Le Gal , Département de Médecine interne et Pneumologie, Centre hospitalier universitaire La Cavale Blanche, Boulevard Tanguy‐Prigent, 29609 Brest Cedex .

Mots-clés : littérature médicale, facteur d’impact  

Illustrations

ARTICLE

Auteur(s) : Grégoire Le Gal

Département de Médecine interne et Pneumologie, Centre hospitalier universitaire La Cavale Blanche, Boulevard Tanguy-Prigent, 29609 Brest Cedex

La démarche scientifique invite le lecteur d’un article médical à toujours adopter une attitude critique vis-à-vis de ce qu’il lit. Ainsi, la lecture d’articles scientifiques fait l’objet d’ouvrages ou d’enseignements permettant de juger de la validité, de l’importance et de l’applicabilité d’une étude. Au-delà, le lecteur doit également mettre en perspective ce qu’il lit avec des informations plus générales sur la littérature médicale. Il lit l’un des 2 000 000 d’articles biomédicaux publiés chaque année dans le monde par environ 20 000 revues différentes. Il est parfois difficile de s’y retrouver. Comment évaluer une bonne revue ? Prestige, nombre d’abonnés, composition du comité de rédaction, nombre d’articles soumis et pourcentage d’acceptés pour publication, facteur d’impact, etc. ? Il est par ailleurs bien évident qu’il existe entre ces revues une « course à l’audience », voire au scoop. Une étude sera d’autant plus volontiers publiée qu’elle rapporte un résultat « significatif » (identification d’une nouvelle association entre un facteur de risque potentiel et une maladie en épidémiologie, supériorité d’un nouveau médicament en thérapeutique). Enfin, le « manque de puissance » des études (nous verrons ce qui se cache derrière cette expression) peut être un autre facteur limitant la qualité de l’information à notre disposition. Alors, que doit faire le lecteur ? Cela peut-il avoir des conséquences pour l’interprétation des résultats et leur intégration à notre pratique médicale ?

Le facteur d’impact

L’un des outils de « classement » de ces revues est le facteur d’impact (en anglais impact factor). Le facteur d’impact d’une revue est calculé par l’ISI (Institute for Scientific Information) de façon annuelle et publié dans le Journal Citation Reports. C’est la fréquence moyenne avec laquelle un article paru dans cette revue est cité par l’ensemble des autres revues scientifiques au cours de la période suivant sa publication (figure 1).

A nombre d’articles publiés égal, plus les articles publiés dans une revue seront cités ultérieurement, plus son facteur d’impact sera grand. Il est ainsi proposé comme un outil de mesure permettant le classement, l’évaluation et la comparaison des différentes revues entre elles et est utilisé par les lecteurs, les auteurs, les revues, les journalistes, les annonceurs publicitaires, etc. Il est devenu également un outil d’évaluation académique, un des moyens d’évaluer l’importance des travaux publiés par un chercheur.

Il faut toutefois en faire un usage très prudent. En effet, la publication par exemple d’articles de révision par les grandes revues généralistes contribue à renforcer leur facteur d’impact car ces revues de la littérature sont souvent citées par la suite, alors même que ces articles n’apportent rien de nouveau sur le plan scientifique. Le domaine d’application de la revue joue également un rôle, le rang d’une revue dans sa spécialité étant au moins aussi important que la valeur absolue de son facteur d’impact. L’autocitation, largement répandue, consiste à citer en priorité dans une revue des articles publiés dans les numéros précédents de cette même revue. Elle conduit également à une surévaluation de l’impact.

Il existe enfin au sein des revues une certaine recherche du scoop, qui sera toujours cité par la suite dans les publications sur le même sujet, même si celles-ci viennent infirmer le résultat initial. Elles n’en auront que plus de mal à être publiées ! C’est le biais de publication. Ainsi, un travail de recherche est plus volontiers publié, et publié dans une revue de fort impact, s’il rapporte des résultats significatifs [1].

Des résultats « significatifs »…

Mais qu’est-ce qu’un résultat significatif ? Imaginons qu’une firme pharmaceutique ait développé un nouvel anti-thrombotique (c’est d’actualité), dont elle pense qu’il préviendrait mieux la survenue d’une thrombose après une chirurgie que nos désormais classiques héparines de bas poids moléculaire (HBPM)... Bien sûr, nous n’allons pas l’adopter d’emblée et, avant de l’utiliser pour nos patients, nous voulons une démonstration de son efficacité. Autrement dit, jusqu’à ce qu’on nous prouve qu’il est plus efficace que les médicaments déjà disponibles, nous considérons qu’il n’est pas meilleur : c’est la démarche scientifique.

Nous voilà donc investigateurs, cherchant à évaluer ce nouvel anti-thrombotique comparé aux HBPM. Nous menons (bien) notre étude : randomisée, en double aveugle, chez des patients bien définis, en nombre suffisant, avec un critère de jugement reconnu, disons le risque de thrombose à 8 jours tel qu’exploré par une phlébographie. Quelques semaines plus tard, à l’analyse des résultats, la proportion de patients ayant développé une thrombose est plus faible chez ceux qui ont reçu le nouvel anti-thrombotique que chez ceux traités par HBPM, disons 8 contre 15 %. Parfait ! Mais cette différence est-elle due réellement à une plus grande efficacité du nouvel anti-thrombotique ? Ou ne s’est-elle pas produite du fait du hasard alors même qu’il n’est pas meilleur ? Autrement dit, est-elle « significative » ? C’est-à-dire assez importante pour que nous puissions affirmer qu’elle n’est pas due au hasard. En effet, si les deux traitements avaient la même efficacité, nous aurions dû avoir autant de thromboses dans les deux groupes, par exemple 12 % dans chaque groupe. Bien sûr, le hasard peut faire que ces pourcentages diffèrent dans une certaine mesure alors même que les traitements sont équivalents (parce que, même s’ils ont été randomisés, les patients ne sont pas exactement les mêmes, etc.), mais jusqu’à quel point ?

C’est ici qu’intervient la statistique (et que les choses se compliquent !). Pour savoir si la différence que nous avons observée est significative, nous allons employer le test ad hoc (ici par exemple un chi-2 : comparaison des proportions de patients avec thrombose dans les deux groupes). Ce test va nous dire quelle était la probabilité d’observer du fait du hasard dans notre étude – si les deux traitements sont équivalents – 15 % de thrombose dans un groupe et 8 % dans l’autre. Cette probabilité, c’est le « petit p ». Si p = 0,01, cela veut dire que, dans notre étude, nous avions si les deux traitements étaient identiques, 1 chance sur 100 d’observer du fait du hasard 15 % de thromboses sous HBPM et 8 % avec le nouvel anti-thrombotique. Poursuivons le raisonnement. Un pour cent, c’est peu ! Il y a très peu de chance d’avoir une telle différence entre les deux groupes si les traitements sont équivalents. Nous nous autorisons alors à dire qu’ils ne le sont pas ! Et nous acceptons que le nouvel anti-thrombotique est bien meilleur. Notons bien que nous avons 1 % de risque de nous tromper en disant cela, puisqu’il y avait 1 chance sur 100 que ces deux proportions de thromboses surviennent pour deux médicaments équivalents du fait du hasard. À partir de quelle valeur étions-nous en droit de dire cela ? La valeur la plus couramment utilisée est 5 %. En dessous de 5 %, on conclut en général à la différence entre les deux traitements comparés. Autrement dit, 5 %, c’est aussi le risque maximum accepté de se tromper en affirmant qu’il existe une différence (alors que cette différence n’existerait pas). Cette valeur limite est appelée « seuil de risque α ». En résumé, la probabilité de constater dans notre étude une telle différence entre les deux groupes en l’absence de différence réelle entre les deux traitements (le petit p) est inférieure au risque accepté de se tromper en affirmant qu’ils diffèrent (le seuil α), alors nous rejetons l’hypothèse selon laquelle ils sont équivalents (on parle d’« hypothèse nulle ») et concluons à une différence significative entre les deux traitements.

Et la puissance dans tout cela ?

Outre le risque de se tromper en affirmant que l’HBPM et le nouvel anti-thrombotique n’étaient pas équivalents, l’interprétation des résultats de notre étude comportait un autre risque : celui de n’avoir pas pu montrer – alors qu’elle existait – la supériorité du nouvel anti-thrombotique sur l’HBPM. En effet, s’il est vrai que cette nouvelle molécule prévient mieux la thrombose, nous avons besoin de le savoir pour pouvoir en faire bénéficier les patients. Il serait alors dommage de faire une telle étude sans être sûr qu’elle soit capable de montrer la supériorité du nouvel anti-thrombotique. La capacité d’une étude à mettre en évidence une différence, c’est sa puissance. Si la puissance de notre étude était de 80 %, cela veut dire qu’elle avait 80 % de chances de mettre en évidence la différence existante entre nos deux molécules. Cela veut dire aussi qu’il existait un risque de 20 % qu’elle ne soit pas capable de le faire (on l’appelle le « risque β »).

Ainsi, lors de la planification de l’enquête, l’investigateur doit se poser la question du niveau acceptable pour les risques : le risque de conclure à tort à une différence (risque α), mais aussi la puissance qu’il souhaite pour son étude. Le choix du risque α dépend avant tout des inconvénients (au sens large) qu’il y aurait – reprenons notre exemple – à conclure à tort à une plus grande efficacité du nouvel anti-thrombotique alors qu’elle n’est pas réelle. Le nombre de sujets qu’il est nécessaire d’inclure dans l’étude pour assurer sa puissance peut (et doit) être calculé à l’avance. Il dépend du risque α, de la puissance et de la différence qu’il veut pouvoir mettre en évidence.

S’il est connu que le taux de thromboses sous HBPM après chirurgie est par exemple de 15 %, voulons-nous nous donner de bonnes chances de mettre en évidence avec le nouvel anti-thrombotique un taux significativement différent de 14, 12 ou 10 % de thromboses ? Imaginons des proportions très différentes (60 % dans un groupe, 20 % dans l’autre). Mettre en évidence une telle différence sera difficile par exemple dans une étude sur 10 patients (5 par groupe), où l’on voit aisément qu’elle peut être due au hasard (3 thromboses dans un groupe, une dans l’autre ; et il suffirait d’une thrombose de plus dans le premier groupe et d’une de moins dans le second pour que les deux proportions soient identiques). Sur 100 patients, la probabilité que ces proportions observées soient dues au hasard est déjà nettement plus faible. Et il nous faudrait inclure beaucoup plus de patients encore si nous voulions pouvoir montrer – si nous la jugeons intéressante – une diminution du taux d’événements de 15 à 14,5 % !

Trop souvent, la puissance est négligée par les auteurs. Ceux-ci se contentent de comparer au seuil α le petit p du test et tirent des conclusions sans prendre en compte la puissance. Ce type d’approche est, il est vrai, conventionnel en épidémiologie dans les études d’observation : étude de l’association entre un facteur de risque et une pathologie par exemple. Dans le cadre de l’essai contrôlé randomisé en revanche, le respect de l’ensemble des conditions citées (choix du seuil α et de la puissance, inclusion d’un nombre suffisant de sujets pour mettre en évidence la différence jugée intéressante tout en garantissant les risques fixés) est un préalable à l’interprétation des résultats du test. La possibilité de juger du caractère significatif ou non de la différence retrouvée par l’ultime étape du test, la comparaison du petit p au seuil α n’est garantie que si l’ensemble des conditions définies au préalable a été respecté.

Pour résumer, si je peux dire – parce que p est inférieur à α – que je conclue à une différence entre les traitements avec un risque faible de me tromper, c’est aussi parce que je me suis donné de bonnes chances de mettre en évidence cette différence si elle existait. L’absence de prise en compte de la puissance peut avoir pour conséquence la non-mise en évidence par l’étude, si le résultat n’apparaît pas significatif, d’une différence existante (le nouvel anti-thrombotique ne serait alors pas retenu alors qu’il était meilleur que l’HBPM), alors que, à l’inverse, tout résultat significatif sera attribué, parfois à tort, à une différence vraie entre les traitements.

Implications pour la lecture de la littérature médicale

Quelles en sont les conséquences au niveau de la littérature médicale en général ? Etablissons un parallèle entre une étude clinique et un test diagnostique. La capacité d’un test diagnostique à reconnaître une maladie s’évalue par sa sensibilité (proportion de patients ayant un test positif parmi les cas) et par sa spécificité (proportion de patients présentant un test négatif parmi les cas indemnes). La sensibilité d’un test peut être rapprochée de la puissance d’une étude (probabilité que l’étude soit significative si les traitements diffèrent) et la spécificité peut être du risque α (ou plus exactement de 1-α, probabilité que l’étude soit significative alors que les deux traitements sont équivalents). Sensibilité et spécificité sont des caractéristiques propres du test qui ne dépendent que de sa capacité à reconnaître la maladie. En revanche, l’information utile pour le clinicien est : « mon patient a un test positif, quelle est la probabilité qu’il ait la maladie ?». C’est la valeur prédictive positive. Elle ne dépend cette fois pas que de la capacité du test à reconnaître la maladie, mais aussi de la prévalence de la maladie dans la population testée. En effet, la proportion de malades parmi les sujets ayant un test positif va dépendre du nombre de malades ayant un test positif mais également du nombre de sujets indemnes mais avec un test positif. Plus la prévalence de la maladie sera faible, plus ce nombre de sujets dits « faux positifs » sera grand (d’autant plus si la spécificité est faible).

Il en va de même des études cliniques. Reprenons l’exemple numérique donné par Sterne et Davey Smith dans un article publié dans le British Medical Journal en 2001 [2]. Ces auteurs sont partis de deux hypothèses de travail : admettons tout d’abord que 10 % des hypothèses émises par les chercheurs (concernant l’association entre un facteur de risque et une pathologie ou la supériorité d’un traitement sur un autre) soient vraies. Ce chiffre peut même être jugé optimiste vu la multiplicité des hypothèses testées. Par ailleurs, nous l’avons dit, la puissance est souvent négligée et largement insuffisante dans les études publiées [3]. Supposons qu’elle soit en moyenne de 50 % dans la littérature. Le choix de ces deux chiffres peut paraître arbitraire, mais nous les modifierons par la suite. Selon ces deux hypothèses, 1 000 études cliniques réalisées (100 correspondant à des hypothèses justes et 900 à des erronées) se répartiraient alors de la façon suivante (tableau 1). Parmi les 100 hypothèses de recherche justes (les deux traitements diffèrent vraiment), seules 50 vont être mises en évidence, puisque la puissance, la probabilité de mettre en évidence une différence qui existe, est de 50 %. Parmi les 900 hypothèses de travail fausses (les deux traitements ne diffèrent pas), le risque α fait (si le seuil retenu est de 5 %) que le test va conclure à tort à une différence entre les traitements dans 5 % des cas, c’est-à-dire pour 45 études sur 900.

Tableau 1Répartition de 1 000 études réalisées (proportion d’hypothèses de recherche vraies : 10 %, α : 5 %, puissance : 50 %)
Conclusion de l’étude Les deux traitements sont différents Les deux traitements sont équivalents
Différence significative 50 855 905
Absence de différence significative 50 45 95
100 900 1 000

Nous voyons dans notre exemple que, sur les 95 fois où il a été conclu à une différence entre les traitements, ceux-ci n’étaient réellement différents que 50 fois, c’est-à-dire à peine plus d’une fois sur deux ! Dans notre exemple, la valeur prédictive positive d’un résultat significatif, c’est-à-dire la probabilité qu’un résultat significatif corresponde à une « vraie » différence, est de 52,5 %. À l’inverse, 47,5 % des études significatives publiées correspondent à une hypothèse de départ fausse. Ceci ne serait pas (ou moins) un problème si toutes les études non significatives étaient connues mais, nous l’avons vu, le biais de publication fait que les 95 études « significatives » ont une probabilité beaucoup plus grande d’être publiées…

Que faire ?

Sterne et Davey Smith montrent la façon dont varie cette valeur prédictive positive d’un résultat significatif quand on modifie les hypothèses de travail adoptées plus haut et le seuil du risque α (tableau 2). Nous pouvons y lire que, pour assurer un nombre faible d’études « fausses positives », il faudrait : 1) pouvoir garantir un niveau de puissance bien plus élevé, en augmentant le nombre de sujets inclus dans les études notamment ; 2) être plus exigeant sur le seuil de risque α ; 3) ne tester que les hypothèses les plus sérieuses, appuyées par un raisonnement physiopathologique ou par une recherche bibliographique, ne pas se livrer dans les études à des analyses « tous azimuts », en sous-groupes, etc. Rappelons que le seul risque α fait que, quand au cours de l’analyse des résultats d’une étude sont pratiqués 100 tests statistiques, 5 seront significatifs du seul fait du hasard (si le seuil choisi est de 5 %), et que la probabilité qu’aucun des 100 tests réalisés ne soit significatif n’est que de 5 pour 1 000 (0,95100). Il faut dire que la méthode des tests d’hypothèse a été décrite dans la première moitié du vingtième siècle, avant l’avènement de l’informatique et la multiplication des possibilités de calcul ainsi offerte.

Tableau 2Proportion d’études significatives « fausses positives » en fonction de la proportion d’hypothèses justes, de la puissance et du seuil α

Pourcentage d’études significatives « fausses positives »
Puissance de l’étude p = 0,05 p = 0,01 p = 0,001
80 % d’hypothèses de recherche vraies
  20 5,9 1,2 0,10
  50 2,4 0,5 0,05
  80 1,5 0,3 0,03
50 % d’hypothèses de recherche vraies
  20 20,0 4,8 0,50
  50 9,1 2,0 0,20
  80 5,9 1,2 0,10
10 % d’hypothèses de recherche vraies
  20 69,2 31,0 4,30
  50 47,4* 15,3 1,80
  80 36,0 10,1 1,10
1 % d’hypothèses de recherche vraies
  20 96,1 83,2 33,10
  50 90,8 66,4 16,50
  80 86,1 55,3 11,00

Au-delà de ces recommandations à l’échelon de la recherche médicale en général, quelles recommandations peuvent être faites au lecteur clinicien ? Avant de transposer les données d’une étude à sa pratique médicale, il faut bien sûr s’interroger sur la qualité intrinsèque de l’étude, ce n’est pas ici notre propos, mais aussi sur sa place dans la littérature concernant le sujet. C’est pourquoi la démarche de la médecine basée sur les faits démontrés nous invite à rechercher en priorité les informations fournies par les méta-analyses d’essais randomisés, fournissant une évaluation globale d’une thérapeutique basée sur l’ensemble des essais cliniques randomisés parus la concernant. La démarche de la Collaboration Cochrane est d’autant plus intéressante à cet égard qu’elle s’attache en particulier à retrouver toutes les études réalisées sur un médicament publiées et non publiées, en particulier auprès des laboratoires pharmaceutiques, limitant ainsi le risque de sélection par la littérature des quelques résultats significatifs obtenus du fait du hasard.

Références

1. Easterbrook PJ, Berlin JA, Gopalan R, Matthews DR. Publication bias in clinical research. Lancet 1991 ; 337 : 867-72.

2. Sterne JA, Davey Smith G. Sifting the evidence-what’s wrong with significance tests ? Br Med J 2001 ; 322 : 226-31.

3. Moher D, Dulberg CS, Wells GA. Statistical power, sample size, and their reporting in randomized controlled trials. JAMA 1994 ; 272 : 122-4.


Copyright © 2007 John Libbey Eurotext - Tous droits réservés