Méthodologie – Élaboration de recommandations : comment utiliser la méthode Grade ?

Auteurs: Ludwig-Serge Aho-Glélé 1, Simon Aho 2


Affiliations :

  • 1 - Épidémiologie et hygiène hospitalière – Centre hospitalier universitaire de Dijon – 21000 Dijon – France
  • 2 - Institut de cancérologie de Lorraine – Vandœuvre-lès-Nancy – France

Auteur principal : Dr - Ludwig-Serge Aho-Glélé - Épidémiologie et hygiène hospitalière – Centre hospitalier universitaire de Dijon – 21000 Dijon – France - Email : ludwig.aho@chu-dijon.fr

2018

Résumé

Les recommandations sont des outils d’aide à la décision essentiels pour homogénéiser et optimiser les pratiques médicales. Elles peuvent provenir d’un consensus informel ou mieux, dans un contexte de médecine basée sur les faits, s’appuyer sur les preuves scientifiques disponibles [1,2]. L’objectif de ce texte est de présenter succinctement la méthode d’élaboration de recommandations dite Grading of Recommendations Assessment, Development and Evaluation (Grade) [7], souvent utilisée et d’en donner quelques exemples d’utilisation.

Article

Qu’est-ce qu’un niveau de preuve scientifique ?

« Quod gratis asseritur gratis negatur. »1

Le National Cancer Institute définit les niveaux de preuve comme constitutifs d’un « système de classement utilisé pour décrire la force des résultats mesurés dans un essai clinique ou une étude de recherche » [3]. Ce terme avait été utilisé en 1979 par le Canadian Task Force on the Periodic Health Examination [4] pour « évaluer l’efficacité d’une intervention en fonction de la qualité des preuves obtenues ». Ce groupe de travail avait utilisé quatre niveaux de preuve :

  • niveau I : données probantes provenant d’au moins un essai contrôlé randomisé (ECR) ;
  • niveau II-1 : données probantes provenant d’au moins une étude de cohorte ou d’une étude cas-témoin bien conçue (études comparatives, non randomisées) ;
  • niveau II-2 : comparaisons entre les périodes et les lieux, avec ou sans intervention ;
  • niveau III : avis d’experts, fondés sur l’expérience clinique, sur des études descriptives ou les rapports de comités.

Depuis, plusieurs dizaines de systèmes hiérarchiques ont été proposées pour l’évaluation des preuves. En règle générale, les ECR sont classés au-dessus des études observationnelles, tandis que les avis d’experts et les cas cliniques (« expérience anecdotique ») figurent au dernier rang. Certaines hiérarchies de preuves, comme celle du Centre for Evidence-Based Medicine, placent la revue systématique de la littérature et la méta-analyse des ECR au-dessus de ceux-ci [5]. Un guide de la Haute Autorité de santé décrit ces nombreuses méthodes d’élaboration de recommandations [6]. La méthode Grade présentée ici a été adoptée par plus d’une centaine de sociétés savantes françaises ou étrangères [7] et d’organisations internationales telles que l’OMS [8]. Notons qu’elle requiert un temps d’analyse conséquent pour chaque article analysé, pouvant aller de 30 minutes à plus de deux heures suivant l’expérience des lecteurs [6].

Comment fonctionne la méthode Grade ?

La méthode Grade [9,10,11,12]2 évalue la qualité des données scientifiques, en répondant à des questions précises sur les quatre critères du modèle « population étudiée, intervention, comparateur ou contrôle, outcome (ou critère de jugement évaluant l’efficacité de l’intervention) » (Pico) illustrés en Tableau I. Elle est orientée vers l’analyse des ECR (ou méta-analyses d’ECR), mais peut aussi être utilisée pour des études d’observation.

Les principales étapes de cette méthode sont les suivantes :

  • Formuler la question (selon les critères du modèle Pico).
  • Choisir le(les) critère(s) de jugement (CJ) d’intérêt pour l’analyse de la littérature, et les hiérarchiser en : « crucial », « important », ou « non important ». Ces critères peuvent concerner l’efficacité ou la sécurité (tolérance) de l’étude.
  • Réaliser une revue de la littérature, débouchant sur une méta-analyse.
  • Estimer l’effet de l’intervention.
  • Évaluer le niveau de preuve, global pour chaque critère de jugement.
  • Apprécier les balances bénéfice/risque et coût/bénéfice.
  • Formuler la recommandation, en lui attribuant un « grade ».

Point de départ de la démarche, la stratégie de recherche de la littérature répondant à la question doit être systématique [13]. Sont concernées les publications indexées dans les bases de données bibliographiques, telles que PubMed [14]ScienceDirect [15]Cochrane Library [16], Institut de l’information scientifique et technique (Inist) – Centre national de la recherche scientifique (CNRS) [17], etc., mais aussi celles indexées dans les bases de données d’essais cliniques, telles que clinicaltrials.gov [18] ou EU ClinicalTrials Register [19], et enfin la littérature grise (rapports d’étude ou de recherche, actes de congrès, thèses, brevets, etc.) [20,21,22]. Cette dernière est disponible dans des bases de données bibliographiques telles que OpenGrey [23]. Des grilles d’analyse des biais des études sont disponibles et utiles : Risk of Bias (RoB) pour les études randomisées [24] et Risk Of Bias In Non-randomised Studies of Interventions (Robins) pour les études d’observation [25].

Puis on réalise une estimation globale de l’effet de l’intervention pour chaque CJ, via une méta-analyse « classique » [26,27] ou une autre méthode [28,29]. Ensuite, on évalue pour chaque CJ le niveau de preuve scientifique de l’ensemble des études retenues, qui débouche sur l’attribution de l’un des grades suivants : « élevé », « modéré », « bas » ou « très bas » ; en prenant en compte les méthodes utilisées (« design »), la cohérence des données, les critères de jugements directs ou indirects, la précision des données et les « autres » facteurs de qualité.

Concernant la méthode utilisée, l’analyse ne doit pas s’intéresser uniquement à celle-ci, mais intégrer des possibilités de « promotion » ou de « dégradation » de la cotation, par exemple en remontant le niveau de preuve d’études observationnelles de bonnes qualités ou en abaissant celui d’un ECR de mauvaise qualité.

Le niveau de preuve augmente en cas :

  • d’importance de la « force de l’association » (entre un facteur et un résultat) : importante : +1 ; très importante : +2 ;
  • d’existence d’une relation dose-effet (+1).

Le niveau de preuve diminue en cas :

  • d’existence de biais : sérieux : -1, très sérieux : -2 ;
  • d’imprécision : sérieuse : -1, très sérieuse : -2 ;
  • d’hétérogénéité des résultats : sérieuse : -1, très sérieuse : -2 ;
  • de mesure indirecte : sérieuse : -1, très sérieuse : -2 ;
  • de biais de publication probable : sérieux : -1, très sérieux : -2.

Le niveau de preuve global de l’intervention est le niveau de preuve du CJ le plus critique, ayant le plus faible niveau de preuve.

On peut ensuite proposer une recommandation. Celle-ci peut être « forte » ou « faible », « négative » ou « positive ». La force de la recommandation reflète l’importance de l’événement traité (incidence et gravité), le niveau global de preuve, l’effet de l’intervention (importance et précision de l’estimation), les valeurs et les préférences des praticiens et des patients, la balance bénéfices/risques, le coût, et l’acceptabilité. Il faudra ensuite diffuser, appliquer et évaluer cette recommandation.

Comment lire les recommandations Grade ?

Comme pour toute recommandation, la lecture doit s’appuyer sur l’argumentaire. S’agissant de la méthode Grade, les recommandations sont intégrées au sein d’un tableau synthétique contenant au minimum les éléments suivants : question initiale, recommandation, force de la recommandation, et niveau de preuve scientifique (scoré « élevé », « modéré », « bas » ou « très bas »). Un niveau de preuve « élevé » s’appuie sur plusieurs ECR sans biais ou sur une méta-analyse d’ECR, et suggère que des études ultérieures ne changeront très probablement pas la confiance dans l’estimation de l’effet. Un niveau de preuve « très bas » suggère au contraire que l’estimation de l’effet est incertaine.

Parallèlement, la méthode Grade doit présenter, sous forme de tableaux, le détail des diverses cotations et estimations, avec une évaluation de la qualité de la littérature étudiée, un résumé des estimations d’effets et une évaluation globale des biais. On devrait y trouver :

  • La méthode de l’étude : randomisée ou non (observation) ; en cas de randomisation : qualité de la randomisation, patients perdus de vue (proportion et caractéristiques), type d’analyse (en intention de traiter ou non).
  • La cohérence des données : existence ou non d’une hétérogénéité (variabilité des études), du fait de facteurs tels que la population (formes cliniques, etc.) ou l’intervention (dose, durée, etc.). Dans une méta-analyse, elle est mise en évidence par des tests statistiques et des indices spécifiques, tels que le I2 de Higgins [26,30], un I2 supérieur à 50 % traduisant une hétérogénéité importante.
  • Les critères de jugements directs ou indirects : par exemple la réduction d’une masse tumorale (critère indirect), la survie d’une bactérie (critère direct), une colonisation de la peau (critère direct), ou une infection (critère direct).
  • L’ampleur de l’effet : mesurée via des mesures relatives comme le risque relatif (RR), l’odds ratio [31,32] ou le rapport des risques instantanés (« hazard ratio ») [33,34] ; ou mesurée via la mesure absolue du risque attribuable, ou d’autres indices d’effet [27]. On prend ici en compte l’existence d’une relation dose-effet et de facteurs de confusion. Pour une étude d’observation, il existe une « surcote » pour les effets importants, par exemple dans une étude d’observation : +1 pour un RR supérieur à 2 (ou inférieur à 0,5), ou +2 pour un RR supérieur à 5 (ou inférieur à 0,2).
  • La précision des données : estimée par l’étendue de l’intervalle de confiance du CJ. Celle-ci est importante en cas de petits effectifs ou de rareté des évènements.
  • Les « autres » facteurs de qualité : par exemple l’absence de biais de publication [35].

Les scores de départ sont les suivants : 4/4 pour un ECR, 4/4 pour une méta-analyse, 2/4 pour une étude d’observation (cohorte, cas-témoin, etc.). Puis on « décote » en prenant en compte les différents facteurs de qualité : 0 si pas de problème, -1 si problème sérieux, -2 si problème très sérieux. Un ECR avec de « très sérieux problèmes » peut ainsi voir son score passer de 4/4 à 2/4, qui correspond à celui d’une étude d’observation.

Exemples d’utilisation de la méthode Grade en hygiène hospitalière

La Société française d’hygiène hospitalière a partiellement mis en œuvre la méthode Grade pour deux recommandations : Mise à jour de la conférence de consensus – Gestion préopératoire du risque infectieux [36] et Quelles mesures pour maîtriser le risque infectieux chez les patients immunodéprimés ? – Recommandations formalisées d’experts [37].

Pour la première recommandation, le Tableau II présente une synthèse de sept publications concernant la préparation cutanée : détersion suivie d’antisepsie versus antisepsie seule. Les informations contenues dans ce tableau sont relatives pour chaque critère de jugement, en fonction du nombre d’études retenues, de l’évaluation de leur qualité, de la taille des échantillons, des effets (effet relatif et effet absolu) et du niveau final de preuve scientifique. Les critères de jugement retenus sont l’un clinique (infection du site opératoire), l’autre microbiologique (colonisation cutanée). Pour l’infection du site opératoire, par exemple, on dispose de trois études randomisées, tandis que pour la colonisation on dispose de trois études randomisées et d’une étude d’observation. Pour les trois études randomisées dont le critère de jugement est l’infection du site opératoire, les risques de biais sont « sérieux » et « très sérieux » du fait de l’imprécision de certains éléments. La qualité globale, c’est-à-dire le niveau de preuve scientifique, est « très bas ». Le RR global est de 1,08, mais n’est pas statistiquement différent de 1, avec un intervalle de confiance à 95 % allant de 0,57 à 2,03 (donc contenant 1). Il n’y a donc pas de différence statistique entre la stratégie de détersion suivie d’une antisepsie et celle de l’antisepsie seule pour la prévention des infections du site opératoire.

Le Tableau III est extrait de deuxième la recommandation [37] et concerne les interventions étudiées sur l’« Alimentation à faible inoculum bactérien pour la prévention des infections chez les patients immunodéprimés ». Les informations contenues dans ce tableau sont relatives pour chaque critère de jugement, en fonction du nombre d’études retenues, de leur taille, du niveau de preuve scientifique (sans le détail de l’évaluation de la qualité des études, contrairement au tableau précédant) et des effets (effet relatif et effet absolu). Les critères de jugement retenus sont l’un microbiologique (colonisation) et les autres cliniques (bactériémie, bactériémie et/ou fongémie, pneumonie). Pour la bactériémie, par exemple, on ne dispose que d’une étude incluant 46 patients. Le niveau de preuve scientifique est « bas », lié aux biais et à l’imprécision de certains éléments, avec un intervalle de confiance à 95 % assez large puisqu’il va de 0,39 à 2,47. Le RR est de 0,98 et donc non statistiquement différent de 1. Il n’y a pas donc pas de différence statistique entre la stratégie alimentation « pauvre en bactérie » et une alimentation « conventionnelle » pour la prévention des bactériémies chez les patients immunodéprimés.

Conclusion

Pour telles ou telles raisons, la méthode Grade figure parmi les méthodes les plus rigoureuses pour l’élaboration des recommandations. Elle requiert néanmoins un certain entraînement des experts avant son utilisation.

Notes:

1- Ce qui est affirmé sans preuve peut être nié sans preuve. Ce précepte du droit romain s’applique bien à la science et à la médecine.

2- Le manuel Gradepro [39] et le logiciel Gradepro [38] ont été spécifiquement conçus pour l’élaboration de recommandations basées sur l’utilisation de la méthode Grade. Ils peuvent être utilisés seuls ou en complément d’autres outils, tels que RevMan [40], outil Cochrane dédié à la méta-analyse.

Pour en savoir plus :

  • Hajjar J. Élaborer les outils de la prévention. Hygiènes 2018 ; 26(4): 43-45.
  • Laurence M. Construire les référentiels : forces et limites de l’evidence-based medicine. Hygiènes 2018; 26(4): 47-52.
Références

1- Straus SE, Glasziou P, Richardson SW, et al. (eds). Evidence-based medicine: how to practice and teach EBM. Amsterdam, London: Elsevier, 5th edition; 2018. 336 p.

2- Straus SE, Richardson WS, Glasziou P, Haynes RB. Médecine fondée sur les faits : Evidence-Based Medicine. Paris: Elsevier Masson, 3e édition ; 2007. 304 p.

3- National Cancer Institute (NCI). NCI Dictionary of Cancer Terms [internet]. Accessible à : https://www.cancer.gov/publications/dictionaries/cancer-terms (Consulté le 29-11-2018).

4- Canadian Task Force on the Periodic Health Examination. The periodic health examination. Canadian Task Force on the Periodic Health Examination. Can Med Assoc J 1979; 121(9): 1193–1254.

5- Centre for Evidence-Based Medicine (CEBM). Oxford Centre for Evidence-Based Medicine – Levels of Evidence (March 2009) [internet]. Accessible à : https://www.cebm.net/2009/06/oxford-centre-evidence-based-medicine-levels-evidence-march-2009/ (Consulté le 29-11-2018).

6- Haute Autorité de santé (HAS). Niveau de preuve et gradation des recommandations de bonne pratique. Saint-Denis: HAS, « État des lieux » ; avril 2013. 92 p. Accessible à : https://www.has-sante.fr/portail/upload/docs/application/pdf/2013-06/etat_des_lieux_niveau_preuve_gradation.pdf (Consulté le 29-11-2018).

7- The Grading of Recommendations Assessment, Development and Evaluation (GRADE) Working Group. GRADE – Welcome to the GRADE working group [internet]. Accessible à : http://www.gradeworkinggroup.org/ (Consulté le 29-11-2018).

8- Norris SL, Ford N. Improving the quality of WHO guidelines over the last decade: progress and challenges. The Lancet Global Health 2017; 5(9): e855–e856.

9- Atkins D, Best D, Briss PA, et al. Grading quality of evidence and strength of recommendations. BMJ. 2004; 328(7454): 1490-1494. Accessible à : https://www.bmj.com/content/bmj/328/7454/1490.abridgement.pdf (Consulté le 29-11-2018).

10- Guyatt G, Oxman AD, Akl EA, et al. GRADE guidelines: 1. Introduction-GRADE evidence profiles and summary of findings tables. J Clin Epidemiol 2011; 64(4): 383-394.

11- Guyatt GH, Oxman AD, Vist G, et al. GRADE guidelines: 4. Rating the quality of evidence–study limitations (risk of bias). J Clin Epidemiol 2011; 64(4): 407-415.

12- Guyatt GH, Oxman AD, Vist GE, et al. GRADE: an emerging consensus on rating quality of evidence and strength of recommendations. BMJ 2008; 336(7650): 924-926. Accessible à : https://www.mja.com.au/sites/default/files/Grade%20system%20article%201.pdf (Consulté le 29-11-2018).

13- Grewal A, Kataria H, Dhawan I. Literature search for research planning and identification of research problem. Indian J Anaesth 2016; 60(9): 635-639.

14- US National Library of Medicine National Institute of Health. Home – PubMed – National Center for Biotechnology Information (NCBI) [internet]. Accessible à : https://www.ncbi.nlm.nih.gov/pubmed/ (Consulté le 29-11-2018).

15- Elsevier. ScienceDirect – Search for peer-reviewed journals, articles, book chapters and open access content [internet]. Accessible à : https://www.sciencedirect.com (Consulté le 29-11-2018).

16- Cochrane. Cochrane Library [internet]. Accessible à : https://www.cochranelibrary.com/ (Consulté le 29-11-2018).

17- Institut de l’information scientifique et technique (Inist) – Centre national de la recherche scientifique (CNRS). Institut de l’information scientifique et technique – Information et services numériques pour la recherche [internet]. Accessible à : http://www.inist.fr/ (Consulté le 29-11-2018).

18- National Institute of Health – US National Library of Medicine. ClinicalTrials.gov [internet]. Accessible à : https://clinicaltrials.gov/ (Consulté le 29-11-2018).

19- European Medicines Agency – Heads of Medicines Agencies. EU Clinical Trials Register [internet]. Accessible à : https://www.clinicaltrialsregister.eu/ (Consulté le 29-11-2018).

20- Adams J, Hillier-Brown FC, Moore HJ, et al. Searching and synthesising “grey literature” and “grey information” in public health: critical reflections on three case studies. Syst Rev 2016; 5: 164. Accessible à : https://www.ncbi.nlm.nih.gov/pmc/articles/PMC5041336/ (Consulté le 29-11-2018).

21- Paez A. Grey literature: An important resource in systematic reviews. J Evid Based Med. 2017; 10(3): 233-240.

22- Schöpfel J. Vers une nouvelle définition de la littérature grise. Cahiers de la Documentation 2012; 66(3): 14-24.

23- Institut de l’information scientifique et technique (Inist) – Centre national de la recherche scientifique (CNRS). OpenGrey [internet]. Accessible à : http://www.opengrey.eu/ (Consulté le 29-11-2018).

24- Page M. RoB 2.0: A revised tool to assess risk of bias in randomized trials [PowerPoint]. University of Bristol; January 2017. 44 p. Accessible à : https://training.cochrane.org/sites/training.cochrane.org/files/public/uploads/resources/downloadable_resources/Rob%202.0%20CLL%20webinar%20slides.pdf (Consulté le 29-11-2018).

25- Sterne JA, Hernán MA, Reeves BC, et al. ROBINS-I: a tool for assessing risk of bias in non-randomised studies of interventions. BMJ 2016; 355(8080): i4919. Accessible à : https://www.ncbi.nlm.nih.gov/pmc/articles/PMC5062054/ (Consulté le 29-11-2018).

26- Borenstein M (ed). Introduction to meta-analysis. Hoboken (NJ): John Wiley & Sons; 2009. 452 p.

27- Cucherat M, Boissel J-P. Méta-analyse des essais thérapeutiques. Paris: Masson; 1997. Accessible à : http://www.txrating.org/spc/bookma_web/frame.htm (Consulté le 29-11-2018).

28- Biondi-Zoccai G (ed). Network Meta-Analysis: Evidence Synthesis with Mixed Treatment Comparison (Medical Procedures, Testing and Technology). Hauppauge (NY): Nova Science Publishers; 2014. 406 p.

29- Dias S, Ades AE, Welton NJ, et al. Network Meta-Analysis for Decision-Making. Hoboken (NJ): John Wiley & Sons; 2018. 488 p.

30- Higgins JPT, Thompson SG. Quantifying heterogeneity in a meta-analysis. Stat Med 2002; 21(11): 1539-1558.

31- Davies HTO, Crombie IK, Tavakoli M. When can odds ratios mislead? BMJ 1998; 316(7136): 989-991. Accessible à : https://www.ncbi.nlm.nih.gov/pmc/articles/PMC1112884/ (Consulté le 29-11-2018).

32- Sedgwick P. Relative risks versus odds ratios. BMJ 2014; 348(7945): g1407.

33- Blagoev KB, Wilkerson J, Fojo T. Hazard ratios in cancer clinical trials–a primer. Nat Rev Clin Oncol 2012; 9(3): 178-183.

34- Hernán MA. The Hazards of Hazard Ratios. Epidemiology 2010; 21(1): 13-15.

35- Thornton A, Lee P. Publication bias in meta-analysis: its causes and consequences. J Clin Epidemiol 2000; 53(2): 207-216.

36- Société Française d’Hygiène Hospitalière. Mise à jour de la conférence de consensus – Gestion préopératoire du risque infectieux. Hygiènes 2013; 21(4):1-112.

37- Société Française d’Hygiène Hospitalière. Quelles mesures pour maîtriser le risque infectieux chez les patients immunodéprimés ? – Recommandations formalisées d’experts. Hygiènes 2016; 24(5): 1-64.

38- Gradepro. Home page [internet]. Accessible à : https://gradepro.org/ (Consulté le 29-11-2018).

39- Gradepro. GRADE handbook [internet]. Accessible à : https://gdt.gradepro.org/app/handbook/handbook.html (Consulté le 29-11-2018).

40- Cochrane. RevMan Web [internet]. Accessible à : https://community.cochrane.org/help/tools-and-software/revman-web (Consulté le 29-11-2018).