En direct… de l’IQS – Méthodes de mesure du travail en équipe

Auteurs: Dan Benhamou 1, 2, Antonia Blanie 1, 2


Affiliations:

  • 1 - Centre de simulation LabForSIMS – Faculté de médecine Paris Sud – 63, rue Gabriel-Péri – 94276 Le Kremlin Bicêtre
  • 2 - Département d’anesthésie-réanimation, hôpital Bicêtre, Le Kremlin-Bicêtre

Auteur principal: Pr - Dan Benhamou - Centre de simulation LabForSIMS – Faculté de médecine Paris Sud – 63, rue Gabriel-Péri – 94276 Le Kremlin Bicêtre - Email: dan.benhamou@bct.aphp.fr

2017

Résumé

Compte rendu du Séminaire Recherche – Paris - 23 juin 2016 - Institut pour la qualité et la sécurité en santé

Article

Introduction et rappel sur la valeur ajoutée du travail en équipe

Les données concernant la valeur ajoutée que représente un travail en équipe efficace sont maintenant largement disponibles. Dans un travail emblématique, Mazocco et al. ont étudié les relations au sein d’un bloc opératoire et ont montré la relation inverse qui existe entre la qualité de la communication entre les membres de l’équipe opératoire et le taux de complications postopératoires : plus la qualité de la communication et du travail en équipe étaient forte, moins élevé était le taux de complications graves postopératoires [1]. Plus récemment, Schmutz et Manser ont analysé les études disponibles qui recherchaient un lien entre la qualité du processus d’équipe et les résultats cliniques [2]. Parmi les 28 études sélectionnées, dix d’entre elles étaient réalisées en contexte de simulation mais toutes les autres décrivaient des situations de vie réelle, en contexte hospitalier, qu’il s’agisse de salle d’opération, de situations obstétrico-pédiatriques ou de prise en charge d’un arrêt cardiaque. Toutes ces études rapportaient des effets bénéfiques importants ou au moins modérés d’un travail en équipe approprié et soulignaient l’importance de la formation et de l’entraînement. Cet effet de l’entraînement et de la formation en équipe a été aussi montré dans le contexte du bloc opératoire. Armour Forse et al. ont montré que la perception de la compétence individuelle (communication, travail en équipe) était améliorée après une formation tant pour les équipes de salle de réveil que pour celles du bloc opératoire [3]. Utilisant un programme de formation au travail en équipe ayant pour but d’améliorer la communication en salle d’opération et comprenant une journée de formation in situ basée sur le modèle Crisis Resource Management (incluant une formation sur les check-lists, les briefings et débriefings, la notion de speak up), d’autres auteurs ont montré une réduction significative de la morbidité postopératoire (taux/1 000 opérations) en comparant ces résultats avec des données historiques [4]. Signalons encore une autre étude qui s’est intéressée à la formation au travail en équipe chez des étudiants de plusieurs domaines soignants dans le cadre d’une formation interprofessionnelle [5]. L’évaluation a porté sur 66 étudiants (médecine, soins infirmiers,
infirmier-anesthésiste, infirmier de bloc opératoire diplômé d’État) travaillant par groupes de six (chacun dans son rôle) et au cours de deux scénarios (saignement chirurgical, toxicité aux anesthésiques locaux). Un autoquestionnaire et une évaluation de la performance d’équipe par le score Ortas démontraient tous deux une amélioration des paramètres de façon significative. Bien que les différents métiers se situaient à des niveaux différents de comportement vis-à-vis du travail en équipe au début de l’étude, les bénéfices touchaient globalement chaque catégorie d’étudiants de façon proportionnelle (pente de l’amélioration similaire) démontrant l’utilité de tels programmes pour tous les métiers de la santé.

La qualité métrologique des méthodes de mesure du travail en équipe

S‘agissant d’un concept à l’interface entre les sciences sociales et la recherche biomédicale, le travail en équipe est difficile à mesurer. Bien que les effets puissent se mesurer par des critères « lourds » (morbidité, mortalité), les instruments de mesure sont essentiellement de nature psychométrique (échelles, scores) et visent à évaluer les différentes dimensions du concept, elles-mêmes souvent divisées en composantes.

La métrologie des méthodes de mesure des échelles psychométriques s’appuie sur les critères classiques que sont la fiabilité et la validité. Il est hors de propos dans cette revue de décrire l’ensemble des méthodes d’analyse de la fiabilité et de la validité et le lecteur est invité à se reporter à des documents déjà publiés [6,7,8,9]. La représentation la plus simple et la plus classique de ces deux données est le modèle de la cible. Un tir fiable fournira des empreintes de projectile rassemblées les unes à côté des autres dans un périmètre très restreint, celui d’un tir groupé, quelle que soit la distance par rapport au centre de la cible. Inversement un tir non fiable sera décrit comme des tirs très éloignés les uns des autres, là encore quelle que soit la distance par rapport au centre de la cible. Un tir valide sera lui décrit comme proche du centre de la cible. De façon schématique, plusieurs méthodes peuvent être utilisées pour s’assurer d’une bonne fiabilité. On citera parmi les plus connues le concept de test-retest (qui vérifie la reproductibilité des résultats obtenus) et celui de cohérence interne [mesurée notamment par l’alpha de Cronbach pour lequel une valeur proche de 1 traduit une bonne cohérence]. Quant à la validité, on utilisera pour la mesurer des échelles qui cherchent à vérifier que l’outil de mesure fournit une bonne représentation du phénomène/concept à étudier (validité du construit, ce dernier étant la définition opérationnelle du concept). On a décrit jusqu’à douze critères de validité du construit. Parmi les plus importants, on décrit la validité de contenu (l’opérationnalisation représente le concept sous tous ses aspects), la validité de trait (le construit opérationnalisé mesure le concept qu’il est censé représenter) et la validité convergente (deux mesures du concept par deux méthodes différentes donnent des résultats proches). On parle de validité externe lorsque les résultats sont généralisables en dehors du système dans lequel l’étude initiale a été réalisée. Le processus général de validation d’une échelle psychométrique est décrit sur la Figure 1.

Un des problèmes pratiques de l’utilisation des échelles psychométriques est le fait que la plupart ont été initialement construites en langue anglaise et qu’une traduction adéquate est nécessaire pour maintenir la validité du contenu. Si l’on prend l’exemple de l’échelle RIPLS, considérée comme le meilleur (validité et fiabilité) outil d’évaluation de la perception d’interprofessionnalité, plusieurs traductions avaient déjà été réalisées mais pas précisément validées. Une équipe québécoise a entrepris la traduction en français de cette échelle et en a validé le résultat par les méthodes appropriées à ce sujet que sont la traduction dans les deux sens, la démonstration d’une validité du contenu adéquate et une fiabilité adéquate (alpha Cronbach 0,90) [10]. Trois items de l’échelle anglaise ont été jugés peu utiles et l’échelle finale comportait donc seize items. L’item 4 de la version québécoise est formulé ainsi : « Les habiletés de communication devraient être apprises avec d’autres étudiants/professionnels de la santé et des services sociaux » et l’item 16 sous la forme suivante : « L’apprentissage en commun avant et après la diplomation m’aidera à devenir un meilleur travailleur en équipe de travail ». Ces quelques verbatims de l’échelle québécoise montrent que le français diffère selon les pays francophones et qu’une échelle québécoise n’est pas nécessairement vraiment exploitable en France métropolitaine. On dispose ainsi de peu d’échelles validées en langue française. On citera l’échelle de l’Agency for Healthcare Research and Quality traduite par l’équipe du Comité de coordination de l’évaluation clinique et de la qualité en Aquitaine (Bordeaux) qui décrit la culture de sécurité au sein d’une équipe ou d’un établissement [11].

Plusieurs niveaux d’évaluation sont utilisables selon le modèle classique de Kirkpatrick [12]. Le plus simple consiste à mesurer la perception des individus. On utilise ainsi une telle évaluation de la perception par des échelles telles que celles évaluant la culture de sécurité, la culture d’équipe, la satisfaction des apprenants, la perception d’utilité pour leur métier. Le domaine de la culture de sécurité a été bien exploré et est un parfait exemple de la complexité du modèle. Dans une revue de la littérature, Singla et al. ont colligé treize études et ont identifié que ce concept pouvait se diviser en 23 dimensions opérationnelles regroupées en catégories principales : management/supervision, risque, pression de production, compétence, règles et une catégorie « divers » [13]. Le nombre de questions et de dimensions par questionnaire était très variable et presque aucune étude ne pouvait démontrer de lien avec les résultats cliniques. La validité et la fiabilité étaient considérées comme bonnes sans qu’une description précise ne soit fournie. Si l’on se réfère à l’une des échelles les plus étudiées et considérée comme l’une des plus performantes, la Safety Attitudes Questionnaires (SAQ) décrite par Sexton et al., celle-ci inclut trente questions demandant aux soignants de décrire leur perception sur la sécurité de leur environnement [14]. D’une façon générale, plus le nombre de questions est élevé, plus la validité a des chances d’être satisfaisante mais on se heurte alors à la longueur du questionnaire et la pénibilité du remplissage qui réduit le taux de réponses. Cette échelle est issue d’une modification de l’échelle dite Intensive Care Unit Management Attitudes Questionnaire, elle-même adaptée de la Flight Management Attitudes Questionnaire et de l’échelle initiale (Cockpit Management Attitudes Questionnaire). L’échelle SAQ comprend six domaines : climat du travail en équipe, culture de sécurité, satisfaction au travail, perception sur les qualités du management, reconnaissance du stress et conditions de travail. Elle a été l’objet d’un véritable travail de validation incluant des efforts de construction à partir de focus groups et des observations directes. Ses caractéristiques métrologiques ont été étudiées. La validité a par exemple été confirmée par des observations comportementales en salle d’opération, correspondance entre changements en salle d’opération et résultats des questionnaires, variations des résultats selon les métiers. La fiabilité considérée comme adéquate peut cependant être mise en doute au vu de la valeur importante des écarts-types enregistrés dans les études ayant utilisé cette échelle [14].

Comment mesurer le travail en équipe ?

Par définition, les équipes sont constituées d’individus, chacun ayant un niveau de connaissance, des compétences et des attitudes variables mais qui travaillent ensemble pour atteindre le même objectif clinique. Pour cela, elles doivent coordonner leurs efforts, communiquer et coopérer, chaque membre de l’équipe devant ajuster ses efforts par rapport à ceux des autres. Le résultat est donc le produit (synergique ou non) de ces actions individuelles. Ainsi l’évaluation doit non seulement capturer le résultat final mais aussi analyser la façon dont l’équipe a obtenu un tel résultat. Alors que l’évaluation n’est pas centrée sur chaque membre de l’équipe individuellement, donner des informations spécifiques permettra à chaque membre de l’équipe d’évaluer sa propre performance et s’améliorer. Ainsi des commentaires individualisés sont utiles au cours du débriefing même si celui-ci est centré sur le fonctionnement de l’équipe. L’amélioration du résultat final (performance) peut être mesurée par des critères intermédiaires : impact sur le changement des pratiques, efficience (délais opératoires par exemple), mais idéalement des effets sur les résultats cliniques (amélioration de la durée de vie ou réduction du taux d’événements indésirables par exemple) sont attendus (niveau 4 de Kirkpatrick). Ils sont bien sûr difficiles à mesurer et à démontrer [3]. La majorité des études se concentre donc sur des mesures évaluant les acteurs après observation (monde réel ou en simulation). Certaines échelles évaluent la perception des acteurs vis-à-vis du travail en équipe ou du degré d’interprofessionnalité ressenti (niveau 1 de Kirkpatrick). D’autres mesurent l’acquisition de connaissances (perception et/ou mesure) (niveau 2 de Kirkpatrick). D’autres enfin se concentrent sur l’évaluation des comportements et mesurent les compétences non techniques (niveau 3 de Kirkpatrick).

Le travail de revue systématique de Valentine et al. qui regroupe 39 études publiées au cours des vingt dernières années et décrivant des échelles psychométriques de mesure du travail en équipe rappelle à quel point la notion de travail en équipe est une notion complexe et qui inclut des modèles conceptuels et des dimensions variées selon les auteurs [15]. Les dimensions mesurées sont aussi différentes selon que l’on s’adresse à des équipes de petite taille (quelques individus) ou à des équipes de grande envergure. Cependant, trois dimensions principales sont régulièrement retrouvées dans chacune des échelles étudiées : communication, coordination, respect. Les auteurs ont analysé le degré de validation des échelles utilisées (fiabilité, validité) et rapportent que peu d’entre elles sont soutenues par une bonne évaluation métrologique. À côté de ces instruments mesurant strictement le travail en équipe et analysées par Valentine et al., la plupart des échelles utilisées en clinique sont en réalité des grilles de mesure des compétences non techniques (comportement), parmi lesquelles le travail en équipe est une composante essentielle mais n’est pas la seule [15]. D’autres paramètres (conscience de la situation, soins centrés sur la personne, résolution de conflits, prise de décision, clarification des rôles…) sont retrouvés de façon variable en fonction des instruments décrits. Plusieurs revues systématiques récentes ont porté sur des domaines plus restreints, tels que le travail en équipe en milieu chirurgical [16] ou en médecine interne [17] mais toujours évaluent les compétences non techniques. Toutes retrouvent des résultats similaires et identifient les échelles qui ont obtenu la meilleure évaluation psychométrique. Pour Havyer et al., seules 39 % des 73 échelles testées dans leur revue systématique présentent les qualités métrologiques excellentes ou acceptables [17]. Le meilleur modèle de validation est probablement le groupe d’échelles créées par le groupe d’Aberdeen dirigé par Rhona Flin [18]. La première d’entre elles historiquement est l’échelle Notechs (Non-Technical Skills for Airline Pilots) qui est un instrument d’évaluation des compétences non techniques des pilotes de ligne. Elle a aussi été utilisée pour étudier la performance des équipes chirurgicales et elle a servi de base aux échelles créées spécifiquement pour le monde médical. Globalement, ces échelles ont subi un excellent processus de validation et présentent les caractéristiques des échelles valides et fiables. L’échelle Ants (Anaesthetists’ Non-Technical Skills) dont les catégories (dimensions, composants) sont décrites sur le Tableau I est probablement la mieux validée [19]. Avec cette échelle, le score peut aller de 0 (aucune composante observée) à 60. Dans la description princeps de validation de cette échelle, les auteurs montrent que les différentes composantes du score sont observables dans 83 à 100 % des cas [19]. On notera aussi que la traduction française de cette échelle présentée ci-dessous n’est pas validée à notre connaissance.

Les auteurs des différentes revues systématiques insistent donc sur le besoin de confirmation psychométrique de ces échelles et encouragent les chercheurs à adapter les instruments déjà existants plutôt que d’en créer de nouvelles pour chaque situation spécifique. C’est ainsi que l’échelle N-Ants a été créée pour mesurer la qualité du travail en équipe des infirmières anesthésistes [20] et l’échelle Splints [21] pour évaluer le travail en équipe des infirmières de bloc opératoire (panseuses), considérant que chacun de ces métiers présentait des particularismes tels qu’ils justifiaient chacun d’une échelle spécifique. Si l’on peut s’accorder sur cette réalité qu’est la spécificité de ces métiers, des rôles et des compétences de ces différents acteurs de soins, on peut douter de l’utilité de ces échelles très spécifiques [22].

En résumé, alors que la qualité du travail en équipe semble bien reliée à une amélioration du devenir des patients, cet effet bénéfique est difficile à mettre en évidence. Les méthodes de mesure du travail en équipe sont donc essentiellement basées sur l’utilisation d’échelles psychométriques, mesurant des critères subrogés évaluant les comportements des acteurs au sein de l’équipe. Ces échelles sont très nombreuses et beaucoup sont insuffisamment validées. Les chercheurs sont plutôt encouragés à utiliser les échelles existantes et chercher à en améliorer la valeur métrologique [15].

Références

1- Mazzocco K, Petitti DB, Fong KT, Bonacum D, Brookey J, et al. Surgical team behaviors and patient outcomes. Am J Surg 2009; 5: 678-685.

2- Schmutz J, Manser T. Do team processes really have an effect on clinical performance? A systematic literature review. Br J Anaesth 2013; 4: 529-544.

3- Armour Forse R, Bramble JD, McQuillan R. Team training can improve operating room performance. Surgery 2011; 4: 771-778.

4- Young-Xu Y, Neily J, Mills PD, Carney BT, West P, et al. Association between implementation of a medical team training program and surgical morbidity. Arch Surg 2011; 12: 1368-1373.

5- Paige JT, Garbee DD, Kozmenko V, Yu Q, Kozmenko L, et al. Getting a head start: high-fidelity, simulation-based OR team training of interprofessional students. J Am Coll Surg 2014; 218: 140-149.

6- Fortin F. Propriétés métrologiques des instruments de mesure (fidélité, validité). Recherche en Soins Infirmiers 1994; 39: 58-62.

7- Phelan C, Wren J. Exploring reliability in academic assessment. Accessible à : www.uni.edu/chfasoa/reliabilityandvalidity.htm (Consulté le 28-02-2017).

8- Goulet C. inititiation pratique à la méthodologie des sciences humaines. La validité d’une recherche. Accessible à : http://pagesped.cahuntsic.ca/sc_sociales/psy/methosite/consignes/validite.htm (Consulté le 28-02-2017).

9- Agence de la santé publique du Canada. Évaluation de la qualité de vie des personnes atteintes de troubles mentaux chroniques : Analyse critique des mesures et des méthodes. 3. Comparaisons psychométriques des instruments et des méthodes. Accessible à : www.phac-aspc.gc.ca/mh-sm/pubs/quality_of_life-qualite_de_vie/comparaisons-fra.php (Consulté le 28-02-2017).

10- Cloutier J, Lafrance J, Michallet B, Marcoux L, Cloutier F. French translation and validation of the Readiness for Interprofessional Learning Scale (RIPLS) in a Canadian undergraduate healthcare student context. J Interprof Care 2015; 29: 150-155.

11- Occelli P, Quenon JL, Djihoud A avec l’aide du groupe de travail : Izotte M, Domecq S, Delaperche F, Claverie O, Castets-Fontaine B, Auroy Y, Parneix P, Amalberti R, Michel P. Mesure de la culture de sécurité des soins en milieu hospitalier. Guide d’utilisation de l’outil de mesure. version mai 2010. Accessible à : www.ccecqa.asso.fr/sites/ccecqa.aquisante.priv/files/u46/2.outilsgdr.pj-culture_securite-guide_dutilisation_030610.pdf (Consulté le 28-02-2017).

12- The Kirkpatrick Model of Training Evaluation. Accessible à : www.kirkpatrickpartners.com/OurPhilosophy/TheKirkpatrickModel (Consulté le 28-02-2017).

13- Singla AK, Kitch BT, Weissman JS, Campbell EG. Assessing patient safety culture: A review and synthesis of the measurement tools. J Pat Safety 2006; 2: 105-115.

14- Sexton JB, Makary MA, Tersigni AR, Pryor D, Hendrich A, et al. Teamwork in the operating room: Frontline perspectives among hospitals and operating room personnel. Anesthesiology 2006; 105: 877-884.

15- Valentine M, Nembhard IM, Edmondson AC. Measuring teamwork in health care settings. A review of survey instruments. Med Care 2015; 53: e16-e30.

16- Whittaker G, Abboudi H, Khan MS, Dasgupta P, Ahmed K. Teamwork assessment tools in modern surgical practice: A systematic review. Surgery Research Pract 2015; article ID 494827.

17- Havyer RDA, Wingo MT, Comfere NI, Nelson DR, Halvorsen AJ, et al. Teamwork assessment in internal medicine: A systematic review of validity evidence and outcomes. J Gen Intern Med 2013; 6: 894-910.

18- Anaesthetists’ Non-Technical Skills (ANTS). A Behavioural Marker System for Rating Anaesthetists’ Non-Technical Skills. Accessible à : www.abdn.ac.uk/iprc/ants (Consulté le 28-02-2017).

19- Fletcher G, Flin R, McGeorge P, Glavin R, Maran N, Patey R. Anaesthetists’ Non-Technical Skills (ANTS): evaluation of a behavioural marker system. Br J Anaesth 2003; 90: 580-588.

20- Lyk-Jensen HT, Jepsen RM, Spanager L, Dieckmann P, Østergaard D. Assessing Nurse Anaesthetists’ Non-Technical Skills in the operating room. Acta Anaesthesiol Scand 2014; 7: 794-801.

21- Mitchell L, Flin R, Yule S, Mitchell J, Coutts K, Youngson G. Development of a behavioural marker system for scrub practitioners’ non-technical skills (SPLINTS system). J Eval Clin Pract 2013; 2: 317-323.

22- Wisborg T, Manser T. Assessment of non-technical skills in the operating room–one assessment tool per specialty? Acta Anaesthesiol Scand 2014; 7: 773-774.