Home > Journals > Biology and research > Annales de Biologie Clinique > Full text
 
      Advanced search    Shopping cart    French version 
 
Latest books
Catalogue/Search
Collections
All journals
Medicine
Biology and research
Annales de Biologie Clinique
- Current issue
- Archives
- Subscribe
- Order an issue
- More information
Public health
Agronomy and biotech.
My account
Forgotten password?
Online account   activation
Subscribe
Licences IP
- Instructions for use
- Estimate request form
- Licence agreement
Order an issue
Pay-per-view articles
Newsletters
How can I publish?
Journals
Books
Help for advertisers
Foreign rights
Book sales agents



 

Texte intégral de l'article
 
  Printable version
  Version PDF

Practice guidelines: let us sort them


Annales de Biologie Clinique. Volume 67, Number 4, 477-83, juillet-aout 2009, culture-qualité

DOI : 10.1684/abc.2009.0341

Résumé   Summary  

Author(s) : C Augereau, J-P Couaillac, D De Mouy, J-F Dézier, M Fonfrède, J-P Lepargneur, A Szymanowicz, J Watine , Paris, Cahors, Bain-de-Bretagne, Toulouse, Roanne, Rodez.

Summary : A growing number of clinical practice guidelines (CPG) is published. This is understandable because CPG are the corner stone in the evaluation of professional practices (EPP). One cannot deny that EPP is necessary. However, in order for the EPP to reach their objectives, which are to use our resources better and to improve health-care, CPG at our disposal should be of good quality, both in their form and in their content. This is not always the case. What is more, health-care professionals are often not properly trained to distinguish “good” from “not so good” CPG. In this context, the Société française de biologie clinique has created a working group on “CPG and Evidence-Based Laboratory Medicine (EBLM)”. One of the main objectives of our group is to publish critical appraisals of CPG on a regular basis in the Annales de Biologie Clinique (ABC). Thus, the ABC will follow the example set by other medical journals, for example in France: Prescrire. We will more particularly appraise CPGs in relation with laboratory medicine. In this first article, we describe the methods that we will use in order to distinguish “good” from “not so good” CPG. Just like Prescrire as well as like many others, our first tool will be the AGREE instrument, which is quite consensual at an international level. The AGREE tool makes it possible to appraise quite easily, and in a reproducible way, the methodological quality of CPG. We also briefly discuss the more complicated methods that can be used to make judgments about the content of CPG, bearing in mind that equity, patients’ autonomy, balancing risks and benefits, are the four universal principles of medical ethics, that is of good medicine, that is of EB(L)M.

Keywords : recommendations, clinical practice guidelines, evaluation of professional practices, methodological quality, AGREE, medical ethics, ratio between benefits and harms, equity, autonomy, evidence-based laboratory medicine.

ARTICLE

Auteur(s) : C Augereau1, J-P Couaillac2, D De Mouy1, J-F Dézier3, M Fonfrède1, J-P Lepargneur4, A Szymanowicz5, J Watine6

1Paris
2Cahors
3Bain-de-Bretagne
4Toulouse
5Roanne
6Rodez

Article reçu le 13 Novembre 2008, accepté le 23 Mars 2009

Depuis deux à trois décennies, nous assistons à une multiplication exponentielle du nombre des guides de pratique clinique (GPC) ou autres « référentiels ». Le phénomène ne semble pas être en voie d’essoufflement, au contraire, avec la montée en puissance de l’évaluation des pratiques professionnelles et le rôle pivot des GPC dans lesdites évaluations.

Parmi cette multitude de GPC, il y a de bonnes raisons d’estimer que :

  • les GPC ne sont pas tous d’une qualité optimale,
  • les professionnels de santé sont peu formés pour faire la différence entre les meilleurs et les moins bons GPC.

C’est pourquoi, dès la création par la Société française de biologie clinique, à l’automne 2008, de notre groupe de travail “Guides de pratique clinique et Evidence-based laboratory medicine (EBLM)”, il a été décidé qu’un de nos principaux objectifs serait de publier régulièrement des critiques de GPC dans la rubrique « culture-qualité » des Annales de biologie clinique (ABC). En cela, les ABC suivront l’exemple d’autres journaux, par exemple, en France la revue Prescrire [1].

Avant de se lancer dans un tel travail, il nous a semblé nécessaire de définir les méthodes qui nous permettront de distinguer un bon d’un moins bon GPC. C’est le but du présent travail, qui pourrait initialiser la création d’une sous-rubrique dans les ABC.

Définitions et exemples

Qu’est-ce qu’un GPC ?

L’Institute of medicine définit un GPC comme étant un exposé méthodique de recommandations destinées à assister les praticiens et les patients dans leurs décisions en vue de soins optimaux pour des circonstances cliniques spécifiques. Cette définition implique qu’un GPC est constitué de plusieurs RPC (R pour recommandations). Certains auteurs préfèrent parler de GBP ou de RBP (BP pour « bonne pratique »), ce que nous préférons éviter car cela reviendrait à estimer qu‘un GPC serait, par définition, « bon » (ce qui n’est pas forcément vrai).

Qu’est ce que l’EBLM ?

Les biologistes qui pratiquent l’Evidence-based laboratory medicine (biologie factuelle) intègrent à chacune de leurs décisions les plus hauts niveaux de preuves issus de la recherche biomédicale, en concertation pluridisciplinaire avec leurs collègues cliniciens et en tenant compte des valeurs propres aux patients.

Qu’est-ce qu’une pratique médicale appropriée ?

Une pratique médicale appropriée cause plus de bien que de mal (d’aucuns parlent de « bonne » pratique). Ceci revient à dire, en termes plus « techniques », qu’une pratique médicale appropriée est celle dont le rapport bénéfices/risques penche du côté des bénéfices.

Par exemple, en cas d’endocardite à streptocoque, les bons GPC recommandent une antibiothérapie car le bénéfice d’une antibiothérapie, qui est d’éviter l’évolution naturelle d’une endocardite à streptocoque non traitée, à savoir le décès à plus ou moins brève échéance, est jugé supérieur aux risques d’une antibiothérapie, les décès dus aux antibiotiques étant exceptionnels.

Qu’est-ce qu’une pratique médicale inappropriée ?

À l’inverse d’une pratique appropriée, une pratique inappropriée est celle dont le rapport bénéfices/risques penche du côté des risques (harm en anglais, ce qui signifie « mal »).

Par exemple, on a vu des GPC inappropriés faire la promotion, à l’échelle de populations entières, des régimes pauvres en graisses – qui apportent moins de 15 % de calories provenant des graisses, 70 % provenant des hydrates de carbone - alors que les bénéfices en termes de santé de telles pratiques n’ont jamais été démontrés et que leurs effets délétères, qui étaient soupçonnés avant même que ces pratiques soient promues, se confirment avec le temps qui passe et les preuves qui s’accumulent.

Notons que cet exemple, destiné à illustrer l’existence de GPC inappropriés, ne signifie pas que les auteurs de GPC inappropriés soient mal intentionnés. De tels auteurs peuvent être de bonne foi (voir partie « Les opinions ou jugements » ci-dessous). Il est d’ailleurs plus facile de trouver des exemples de GPC inappropriés passés que des exemples de GPC inappropriés présents, puisqu’il est plus facile de constater le mal quand il est fait que quand il est à venir.

Comment distinguer les deux éléments de base qui constituent un GPC : les preuves et les opinions

Les définitions ci-dessus des pratiques médicales appropriées et inappropriées peuvent sembler simples. Cette simplicité n’est qu’apparente : l’évaluation d’un rapport bénéfices/risques est souvent plus complexe que dans nos deux exemples ci-dessus.

C’est en raison de cette complexité qu’il est souvent difficile d’affirmer avec certitude qu’un GPC est “approprié” ou “inapproprié”. Les GPC se situent plus volontiers quelque part entre ces deux extrêmes, avec sans doute plus de GPC appropriés que de GPC inappropriés (pour peu que l’on admette que la médecine cause plus de bien que de mal). C’est pourquoi, comme nous le verrons plus loin quand nous expliciterons la grille de lecture AGREE (Appraisal of guidelines for research and evaluation), entre des qualificatifs extrêmes tels que “bons” ou “mauvais”, les auteurs qui pratiquent la lecture critique des GPC recourent volontiers à des qualificatifs intermédiaires, par exemple “moins bon” ou “insuffisant” ou “je ne sais pas”.

Pour mieux comprendre l’origine de cette complexité, il faut avoir à l’esprit que l’évaluation d’un rapport bénéfices/risques repose nécessairement, comme nous allons le voir ci-dessous, sur des preuves et sur des opinions.

Les preuves

La plupart des auteurs de GPC, pour ne pas dire tous, présentent actuellement leurs recommandations comme étant fondées en priorité sur les résultats des travaux de la meilleure qualité possible c’est-à-dire sur des niveaux (ou des qualités) de preuves. De tels GPC sont connus sous le nom d’Evidence-based guidelines dans le monde anglo-saxon. Dans de tels GPC, les preuves sont recherchées puis analysées de manière méthodique - on parle de systematic review en anglais (« revue méthodique » en français). Il est par exemple admis qu’à qualités égales un essai contrôlé randomisé fournit un plus haut niveau de preuve qu’un essai non contrôlé ou non randomisé ou qu’une étude rétrospective.

Il se trouve que la mesure d’un bénéfice (ou d’un risque) médical est entachée d’une incertitude qui peut être importante, voire très importante puisque, notamment :

  • la qualité de la majorité des études (et donc des preuves) dont nous disposons actuellement est sub-optimale, y compris les essais contrôlés randomisés [2] ;
  • les travaux de recherche biomédicale dont les résultats sont négatifs sont moins publiés que ceux dont les résultats sont positifs, ce qui est de nature à biaiser dans un sens exagérément optimiste nos estimations des rapports bénéfices/risques, d’autant que les professionnels de santé ont tendance à mieux évaluer les bénéfices que les risques [3].

A la lumière de ces trop courtes lignes, on le devine : l’analyse de la qualité des preuves disponibles en vue d’estimer un rapport bénéfice/risque associé à une pratique médicale donnée est une tâche complexe qui permet plus souvent d’estimer nos doutes, de les quantifier dans le meilleur des cas, que de nous apprendre une « vérité » définitive. Cette analyse complexe est bien sûr menée par les auteurs d’un GPC avec tout le talent, et notamment toute l’objectivité et tout le bon sens, dont ils sont capables. Or, avec Descartes, nous le savons : le bon sens est la chose du monde la mieux partagée [4]. Mais nous anticipons là sur notre prochain paragraphe.

Les opinions ou jugements

Dans une science pure, telle les mathématiques, un théorème devient vrai dès qu’il est prouvé. En médecine, les preuves dont nous disposons ne nous permettent pas d’accéder à de telles « vérités ». Ceci indépendamment du fait que les preuves biomédicales sont généralement d’une qualité suboptimale comme nous l’avons déjà souligné. S’il n’y a pas de vérité en médecine, c’est surtout parce que chaque être humain est unique et qu’aucune vérité ne peut s’appliquer uniformément à tous. Il ne serait pas éthique de pratiquer la médecine à la manière d’une science pure, sans tenir compte de la dimension humaine des patients ou des nombreux doutes qui entourent l’exercice de la science et de l’art médical. Toute pratique médicale étant potentiellement porteuse de bénéfices mais aussi de risques, tel médecin ou tel patient attachera plus ou moins d’importance à tel ou tel bénéfice ou à tel ou tel risque, et construira ainsi son propre rapport bénéfices/risques en fonction de ses propres connaissances, valeurs, préjugés (de son propre vécu). Par exemple, il existe des GPC qui recommandent de dépister le cancer de la prostate chez les sujets asymptomatiques âgés de plus de 50 ans par dosages sanguins annuels ou bisannuels de l’antigène prostatique spécifique (PSA), en se basant sur le fait que cette pratique permet des diagnostics plus précoces de tumeurs moins évoluées, permettant alors des traitements moins agressifs de cancers qui tuent actuellement 8 000 hommes par an en France (c’est la 2e cause de mortalité par cancer de l’homme) [5]. D’autres GPC déconseillent un tel dépistage en mettant plutôt l’accent sur : 1) l’absence d’effet clairement prouvé de cette pratique sur la mortalité par cancer de la prostate (les essais randomisés actuellement disponibles étant de qualité insuffisante pour démontrer ou réfuter un tel bénéfice clinique) ; 2) l’existence de faux positifs, c’est-à-dire de PSA élevés en absence de cancer, occasionnant une éventuelle anxiété et des explorations complémentaires inutiles voire néfastes, d’autant qu’un tel dépistage s’adresse, par définition, à des sujets asymptomatiques ; 3) et surtout l’existence d’un important sur-diagnostic (c’est-à-dire de mise en évidence de cancers de la prostate, qui, en l’absence de dépistage n’auraient jamais conduit à une maladie) avec une très lourde morbidité des traitements curateurs proposés aux sujets dépistés (incontinence et impuissance notamment) [6, 7].

À la lumière de cet exemple, on le voit : à partir des mêmes éléments de preuves, différents professionnels ou patients pourront légitimement aboutir à des jugements et des décisions diamétralement opposés. C’est pour cette raison que l’on considère qu’un bon GPC est nécessairement pluridisciplinaire car ceci peut mieux permettre aux utilisateurs du GPC d’exercer des choix véritablement éclairés. Toutefois, pour que des choix puissent véritablement être éclairés, quelques précautions doivent être prises. On le sait, quand on demande à un groupe d’individus de donner leurs opinions sur un sujet donné, on n’obtient pas les mêmes réponses selon que les individus s’expriment par écrit et indépendamment les uns des autres ou qu’ils s’expriment verbalement à tour de rôle dans une pièce où ils sont tous réunis. Imaginons que l’on organise un vote à bulletin secret dans un groupe de 15 ou 20 individus. Supposons qu’à une large majorité, ce groupe vote « pour ». Imaginons que, sans les informer du résultat de leur vote, on demande maintenant à ces mêmes individus de s’exprimer à tour de rôle à haute et intelligible voix. Imaginons que la première personne soit une personne s’exprimant avec classe et autorité et que son vote, « brillamment » argumenté, soit « contre ». Si la 2e personne appelée à s’exprimer se sent moins sûre d’elle que semble l’être la 1re personne, il y a de bonnes chances qu’elle aligne sa réponse sur celle de la 1re personne. Et ensuite, même si la 3e personne aurait eu tendance à être d’un avis différent, sans toutefois être totalement sûre d’elle ou sans posséder les talents oratoires de la première personne, il est possible qu’elle s’aligne sur les deux précédentes. Cette « cascade informationnelle » se poursuit ensuite avec les personnes suivantes qui supposeront qu’il est peu probable que tous les autres participants aient tort. C’est de cette manière que certains GPC en arrivent à des consensus dans lesquels les preuves commencent par être déformées ou mal interprétées par les jugements d’un ou de plusieurs leaders d’opinion, habitués à n’être que rarement ou timidement contredits, avant que le jugement « consensuel » de ces derniers soit ensuite adopté par la majorité de la profession. Une telle « cascade informationnelle » permet d’expliquer que les régimes pauvres en graisse ont été recommandés pendant des années par de prestigieuses sociétés savantes telles l’American cancer society ou l’American heart association, par des agences gouvernementales telles le National institutes of health et par l’écrasante majorité du corps médical alors qu’il est maintenant prouvé que de tels régimes, loin d’augmenter l’espérance ou la qualité de vie, étaient susceptibles de les amoindrir [8].

Pour éviter que des GPC aussi inappropriés voient le jour, il est vivement conseillé que tous les métiers et toutes les spécialités susceptibles d’être concernés par un GPC participent formellement à son élaboration. Un tel groupe est capable de prendre en considération le plus large éventail possible de connaissances (c’est-à-dire de preuves) et d’opinions (c’est-à-dire de jugements). Une analyse des preuves effectuée par des individus aussi divers ne peut qu’aboutir à des jugements tout aussi divers qu’il convient donc d’homogénéiser en utilisant la méthode appropriée, c’est-à-dire la méthode dite du consensus formel. Le mot « formel » souligne qu’il doit s’agir d’un consensus qui ne soit pas de façade (comme ce fut le cas dans l’exemple sus-mentionné). Dans ce type de consensus, les membres du groupe apprennent les uns des autres, comprennent progressivement les raisons de leurs désaccords et de leurs erreurs. Ceci leur permet in fine d’affiner leurs jugements et de faire taire autant que possible leurs conflits d’intérêt et autres préjugés qui sont sans rapport avec une médecine de qualité, c’est-à-dire une médecine qui se soucie des bénéfices cliniques autant que des effets délétères (ou risques) associés à ses actions [9].

En clair, un bon GPC est constitué de recommandations motivées par des preuves analysées à la lumière d’un sens critique méthodique, rationnel et pluridisciplinaire. Il arrive que la qualité des preuves disponibles puisse être jugée, avec raison, insuffisante par les auteurs du GPC. Ces auteurs peuvent tout aussi raisonnablement juger qu’une pratique fondée uniquement sur les preuves serait impossible à mettre en œuvre dans les contextes financier, organisationnel ou culturel où le GPC serait utilisé. Dans de telles situations, les recommandations risquent d’être beaucoup plus fondées sur des opinions que sur des preuves, ce qui n’est acceptable qu’à la condition que l’argumentaire soit élaboré et présenté d’une manière suffisamment explicite pour que tous les utilisateurs du GPC puissent bien comprendre ce que cela signifie et puissent mettre (ou ne pas mettre) en œuvre les recommandations avec tout le discernement nécessaire.

Le problème est qu’il est souvent difficile de trouver des GPC dans lesquels l’utilisateur « de base » parvient à distinguer dans les recommandations ce qui revient aux preuves de ce qui revient aux jugements et surtout d’apprécier le niveau de qualité des premières comme des seconds. La difficulté est telle qu’un groupe d’experts, parmi lesquels on retrouve des représentants des principales agences qui publient des GPC dans le monde, tente actuellement de mettre au point des outils susceptibles d’aider les auteurs de GPC à améliorer une telle situation [10].

Les principaux écueils qui affectent la pertinence des recommandations

On l’a vu, une recommandation appropriée, que l’on pourrait aussi qualifier de pertinente, procure aux patients et à la collectivité plus de bénéfices que d’effets délétères. Une recommandation manque de pertinence quand elle a l’effet inverse : c’est alors une recommandation inappropriée. Dans la situation actuelle, tout utilisateur de GPC peut légitimement soupçonner que tout ou partie des référentiels disponibles ait subi, peu ou prou, l’influence de considérations qui ne relèvent pas d’une bonne mais plutôt d’une mauvaise médecine. De telles considérations peuvent s’appeler conflits d’intérêt, préjugés ou porter le nom de n’importe quelle autre passion humaine. De telles passions incluent notamment les considérations pécuniaires, politiques, corporatistes ou religieuses. De telles influences sont néfastes puisqu’elles amènent certains auteurs de GPC à promouvoir l’usage de tel test diagnostique moins en raison de rapports bénéfices/risques/coûts favorables qu’en raison de liens privilégiés entre eux et, par exemple, des pouvoirs publics, des compagnies d’assurance ou des firmes pharmaceutiques. Ces influences sont d’autant plus néfastes qu’elles demeurent généralement invisibles pour la plupart des utilisateurs, et que les auteurs eux-mêmes peuvent éventuellement être de bonne foi. Le caractère multidisciplinaire d’un GPC et la mise en œuvre de méthodes de consensus formel permettent, comme on l’a suggéré, de minimiser autant que possible ces influences néfastes, ou à défaut de les rendre plus visibles pour les utilisateurs. Malheureusement, et comme nous l’avons aussi suggéré, de gros efforts restent à faire dans ce domaine.

Comment évaluer les GPC ?

L’analyse méthodologique

Il s’agit de faire l’analyse critique de la méthodologie décrite par les auteurs du GPC. Pour cette analyse, à l’instar de la revue Prescrire, nous utiliserons la grille d’évaluation AGREE [11]. Nous avons choisi cette grille parmi toutes celles qui ont été publiées parce qu’elle a également eu la préférence de nombreuses autres équipes de recherche indépendantes, mais aussi parce que c’est celle qui est reconnue par la commission européenne et par l’OMS. De plus, cette grille a été traduite dans de nombreuses langues (www.agreecollaboration.org/translations/).

Cette analyse repose sur la cotation des items d’une grille qui en comporte 23, regroupés en 6 domaines qui capturent les dimensions clés d’un GPC. Ces 6 domaines se composent comme suit :

  • 1er domaine : le GPC précise-t-il ses objectifs, les questions cliniques auxquelles il répondra ainsi que les groupes de patients concernés ?
  • 2e domaine : le GPC précise-t-il quels sont ses utilisateurs potentiels ? Toutes les catégories d’utilisateurs ont-elles participé à l’élaboration du GPC ? Les opinions des patients sont-elles prises en compte ? Le GPC a-t-il été testé par les diverses catégories d’utilisateurs avant d’être validé et diffusé ?
  • 3e domaine : le GPC repose-t-il sur des preuves qui ont été recherchées avec une méthode visant notamment à un recueil exhaustif de celles-ci ? Les preuves ont-elles ensuite été triées selon des critères rationnels ? Les méthodes utilisées pour formuler les recommandations à partir des preuves sont-elles clairement décrites ? Les bénéfices, les effets délétères et les risques sont-ils pris en compte dans la formulation des recommandations ? Y a-t-il un lien explicite entre les recommandations et les preuves sur lesquelles elles sont fondées ? Des experts externes ont-ils effectué une lecture critique du GPC ? Les recommandations sont-elles révisées de manière systématique et planifiée à l’avance selon des procédures explicites ?
  • 4e domaine : les recommandations sont-elles claires et sans ambiguïté ? Les différentes options pour la prise en charge des patients sont-elles clairement présentées, avec leurs avantages et leurs inconvénients respectifs ? Les recommandations clés sont-elles facilement identifiables ? Le GPC fournit-il des outils de nature à faciliter sa mise en œuvre ?
  • 5e domaine : le GPC a-t-il évalué les obstacles, en termes d’organisation ou de coût, auxquels sa mise en œuvre pourra être confrontée ? Le GPC fournit-il des critères utilisables pour évaluer sa mise en œuvre et donc pour guider ses futures mises à jour ?
  • 6e domaine : le GPC est-il indépendant, sur le plan éditorial, du ou des organismes qui ont financé son élaboration ? Les conflits d’intérêt des personnes qui ont participé à son élaboration sont-ils enregistrés ?

Les critères AGREE imposent qu’au moins quatre lecteurs notent ces 23 items, avec des notes allant de 1 à 4, la meilleure note étant 4. Notre groupe de travail comportant huit membres, ce critère devrait être satisfait. Les notes finales pour chaque item sont obtenues en faisant la moyenne des notes obtenues par chaque lecteur, après avoir vérifié que les notes des lecteurs ne sont pas trop dispersées entre elles. Si une différence de 2 ou plus est observée, les lecteurs doivent modifier leurs notes après discussion. La fréquence de telles discordances doit être tracée. Les notes finales permettent de calculer les scores de chaque domaine, sous forme de pourcentages. L’évaluation finale du GPC se base sur ces 23 notes et sur ces six pourcentages. Les meilleurs GPC, qui peuvent se voir attribuer le label « fortement recommandé », obtiennent des notes de 3 ou 4 pour une majorité des 23 items et des pourcentages supérieurs à 60 % pour la plupart des 6 domaines. Les GPC de qualité intermédiaire peuvent obtenir les labels « recommandé sous réserve de modifications » ou « non recommandé » s’ils sont un peu moins bons. Tout en bas de l’échelle, on trouve le 4e label possible, à savoir le label « incertain » (pour plus de détails sur l’outil AGREE, voir réf. 11].

L’analyse du fond

La qualité méthodologique évaluée à l’aune de la grille AGREE constitue en quelque sorte la forme d’un GPC. Si l’on souhaite évaluer un GPC sur son fond, d’autres méthodes sont nécessaires car cela implique d’évaluer la pertinence des recommandations. Comme on l’a vu, une recommandation sera jugée d’autant plus pertinente que sa mise en œuvre procure un maximum de bénéfices cliniques pour un minimum d’effets délétères ou risques (notons à ce propos que les mots « bénéfices » et « risques » constituent une traduction EBM des deux principes éthiques universels que sont la bienfaisance et la non malfaisance), ce qui, si l’on prend en compte les deux autres principes éthiques universels que sont l’autonomie (décisionnelle des patients) et l’équité (principes que l’on pourrait traduire en langage EBM par « l’individu » et « la collectivité »), pose souvent des questions que l’on ne peut résoudre à l’aide de la raison seule [12]. S’il peut sembler aller de soi que des GPC de bonne qualité méthodologique ont une plus grande probabilité que leur qualité de fond soit bonne que des GPC de moins bonne qualité méthodologique, il ne s’agit là que d’une simple hypothèse qui reste à être démontrée.

Quelques auteurs ont cherché à vérifier s’il existe un lien entre la qualité méthodologique et la qualité de fond des GPC. Par exemple, dans le cadre de la prise en charge du diabète de type-2, Burgers et al. ont évalué la qualité méthodologique de 15 GPC en utilisant les critères AGREE [13]. Ils ont constaté que quel que soit le niveau de qualité méthodologique de ces 15 GPC, leur qualité de fond est sensiblement la même car en matière de diabète de type-2 la plupart des recommandations des GPC sont superposables à celles de l’American diabetes association (dont la qualité méthodologique est sub-optimale [14]). De même, concernant l’insuffisance cardiaque, Kulig et al. ont constaté que 11 GPC publiés à un niveau international sont à peu près identiques sur le fond tandis que leur qualité méthodologique est très variable [14].

Il résulte de ce type de travail que :

  • le fait qu’un GPC soit de faible qualité méthodologique selon les critères AGREE peut constituer un motif pour être d’un avis réservé à son sujet, mais en aucun cas ceci ne devrait constituer une raison suffisante pour conseiller aux utilisateurs de le rejeter totalement et définitivement ;
  • le fait qu’un GPC soit aussi irréprochable que possible selon les critères AGREE ne devrait pas non plus constituer une raison suffisante pour le recommander sans réserve aux utilisateurs ;
  • il convient surtout de s’assurer du fond, c’est-à-dire du degré de pertinence des recommandations, c’est-à-dire vérifier que les recommandations qui composent le GPC soient associées à des rapports bénéfices/risques et bénéfices/coûts optimaux, en s’appuyant pour cela sur des informations aussi objectives que possible.

Une méthode pour évaluer un GPC sur le fond peut consister à rechercher des revues méthodiques de la littérature qui soient récentes et dont les conclusions soient fiables (ou à défaut d’en faire une soi-même), afin de confronter ces conclusions au GPC. Chaque GPC étant censé contenir de telles revues, ceci revient donc à comparer le GPC que l’on souhaite évaluer avec non seulement toutes les revues méthodiques disponibles mais aussi avec tous les autres GPC disponibles sur le même thème. Une telle méthode, qui permet d’évaluer d’un coup plusieurs GPC, semble ainsi gagner en objectivité comparée à celles qui évaluent isolément un GPC. Cette méthode peut ainsi permettre de mieux identifier, le ou les éventuels meilleurs des GPC disponibles sur un thème donné plutôt que de simplement suggérer que tel GPC considéré isolément est éventuellement bon (ou moins bon) sur la base de critères éventuellement contestables comme nous l’avons montré.

Conclusion

On le voit, la tâche que notre groupe de travail s’assigne est énorme et complexe. Sauf à se contenter d’une évaluation des GPC selon les critères AGREE, ce qui ne serait sans doute pas complètement inutile, il est quasiment exclu que nous puissions publier des critiques de GPC dans chaque numéro des ABC sans bénéficier de la collaboration d’autres bonnes volontés. Le présent article constitue donc plus qu’une proposition de méthode de travail. Il constitue aussi un appel à toutes les bonnes volontés pour nous aider à faire vivre cette rubrique dans les ABC. Les thèmes à traiter en priorité pourraient être ceux mis en avant par la HAS ou autres organismes similaires en France ou en Europe, par exemple : « prise en charge du diabète de type II de l’adulte », « dépistage du diabète gestationnel », « surveillance de la grossesse », « utilisation des marqueurs cardiaques », « dépistage du cancer de la prostate », « diagnostic des syndromes de Cushing », « suivi des traitements des dysthyroïdies (hyper-, hypo-, nodules, cancers) », « diagnostic des anémies et suivi du traitement martial », « diagnostic et suivi des infections bactériennes chez l’enfant », « diagnostic et suivi des infections bactériennes chez l’adulte », etc.

Références

1 Guides de pratique clinique : faire le tri, et savoir jeter. Prescrire 2007 ; 282 : 304-6.

2 Jacquier I, Boutron I, Moher D, Roy C, Ravaud P. The reporting of randomized clinical trials using a surgical intervention is in need of immediate improvement : a systematic review. Ann Surg 2006 ; 244 : 677-83.

3 Jørgensen KJ, Klahn A, Gøtzsche PC. Are benefits and harms in mammography screening given equal attention in scientific articles? A cross-sectional study. BMC Med 2007 ; 5 : 12.

4 Descartes R. Discours de la méthode. La Haye, 1637.

5 Aupérin A, Laplanche A, Hill C. Prostate cancer screening in the general population : the drawbacks are certain but the benefits are hypothetical. Presse Med 2007 ; 36 : 1045-53.

6 Coulange C. We must screen prostate cancer in the general population. Presse Med 2007 ; 36 : 1043-4.

7 Barry MJ. Screening for prostate cancer - the controversy that refuses to die. N Engl J Med 2009 Mar 18 [Epub ahead of print].

8 Tierney J. Diet and fat : A severe case of mistaken consensus. The New York Times, October 9, 2007.

9 Hutchings A, Raine R. A systematic review of factors affecting the judgments produced by formal consensus development methods in health care. J Health Serv Res Policy 2006 ; 11 : 172-9.

10 Guyatt GH, Oxman AD, Vist GE, Kunz R, Falck-Ytter Y, Alonso-Coello P, et al., GRADE Working Group. GRADE : an emerging consensus on rating quality of evidence and strength of recommendations. Brist Med J 2008 ; 336 : 924-6.

11 AGREE Collaboration. Appraisal of Guidelines for Research and Evaluation (AGREE) Instrument. September 2001 (l’outil AGREE et son manuel d’utilisation sont téléchargeables à: www.agreecollaboration.org).

12 Le Coz P. Place de la réflexion philosophique dans la décision médicale. Intervention Académie nationale de médecine, 24 février 2009.

13 Burgers JS, Bailey JV, Klazinga NS, Van der Bij AK, Grol R, Feder G. Inside guidelines. Comparative analysis of recommendations and evidence in diabetes guidelines from 13 countries. Diabetes Care 2002 ; 25 : 1933-9.

14 Kulig M, Schulte E, Willich S. Comparing methodological quality and consistency of international guidelines for the management of patients with chronic heart failure. Eur J Heart Fail 2003 ; 5 : 327-35.


 

About us - Contact us - Conditions of use - Secure payment
Latest news - Conferences
Copyright © 2007 John Libbey Eurotext - All rights reserved
[ Legal information - Powered by Dolomède ]