Utilisation des résultats des comparaisons interlaboratoires

Résumé

Les normes ISO/CEI 17043 et ISO 15328, qui traitent des comparaisons inter laboratoires pour l’évaluation des laboratoires, rappellent explicitement que des résultats d’essais anormaux peuvent être obtenus même par des laboratoires ayant de bonnes pratiques, avec du personnel compétent. C’est pourquoi les résultats d’une comparaison inter laboratoires ne doivent pas être utilisés pour condamner un participant. Ils doivent être utilisés comme des alertes devant déclencher une recherche des causes d’écart et si nécessaire, une action corrective appropriée correspondante.

Introduction

Dans beaucoup de cas, la décision d’un laboratoire de participer à une comparaison inter laboratoires est motivée par le besoin de satisfaire au référentiel d’accréditation (et notamment le § 5.9 de la norme ISO/CEI 17025).

A l’issue de cette participation, le laboratoire a la charge d’analyser les résultats d’évaluation contenus dans le rapport de comparaison inter laboratoires qu’il reçoit. Plusieurs risques de mauvaise interprétation de ces résultats existent, limitant le profit que le participant aurait pu tirer de sa participation. Cette mauvaise interprétation est souvent due à une mauvaise connaissance des méthodes d’élaboration des résultats individuels et de la signification des alertes.

Ce document a pour objet :

D’expliquer la façon dont les résultats d’évaluation sont obtenus et les risques de mauvaise interprétation encourus ;
De proposer des actions à entreprendre lorsque qu’une alerte est détectée.

Choix de paramètres utilisés pour évaluer la performance d’un laboratoire

L’organisation d’une comparaison inter laboratoires implique de décider au préalable quels seront les paramètres utilisés pour mesurer la performance du laboratoire.
Pour ce faire, les organisateurs de comparaisons inter laboratoires s’inspirent généralement de la norme ISO 5725-1, qui définit l’exactitude d’une méthode d’essai comme une combinaison de sa justesse et de sa fidélité. Dans cette norme :

La « justesse » est définie comme l’étroitesse de l’accord entre la moyenne d’une très grande série d’essais et une valeur de référence acceptée. Traduit en termes courants, les résultats d’essais sont justes quand leur moyenne est égale à la valeur « vraie » ;
La « fidélité » est définie comme l’étroitesse de l’accord entre des résultats d’essais obtenus dans des conditions d’essai fixées. Traduit en termes courants, les résultats d’essais sont fidèles quand plusieurs essais différents fournissent des résultats « semblables ».

La norme précise que la notion de fidélité est attachée aux conditions d’essais qui sont fixées et celles qui ne le sont pas. Les conditions limites de fidélité sont :

La fidélité maximale de la méthode, dénommée « répétabilité », pour laquelle tous les paramètres possibles sont fixés : les essais sont réalisés sur des échantillons identiques, dans un même laboratoire, par un même opérateur, à l’aide d’un même équipement et de mêmes consommables, dans un court intervalle de temps ;
Et la fidélité minimale de la méthode, dénommée « reproductibilité » pour laquelle seuls les échantillons et la méthode d’essai sont identiques : les essais sont réalisés sur dans des laboratoires distincts, par différents opérateurs, à l’aide de différents équipements et consommables, dans un intervalle de temps long.

En conséquence de ce qui précède, les organisateurs de comparaisons inter laboratoires calculent généralement :

Le biais des laboratoires participants pour évaluer la justesse de leurs résultats ;
La répétabilité des laboratoires participants pour évaluer la composante qui leur est attribuable de la fidélité de leurs résultats.

Note : En plus de ces paramètres ci-dessus, qui sont des paramètres de performance des participants, les comparaisons inter laboratoires fournissent des informations générales sur la méthode d’essai utiles aux laboratoires : la répétabilité et la reproductibilité de la méthode.

La norme ISO 13528 fournit le conseil nécessaire pour calculer ces paramètres et pour évaluer à l’aide de tests statistiques appropriés si les résultats du participant sont significativement différents de valeurs considérées comme vraies (voir Résumé de l’ISO 13528).L’organisateur de la comparaison inter laboratoires peut également demander aux participants de fournir l’incertitude sur leurs résultats et utiliser cette information pour l’évaluation de la performance d’un laboratoire. Cependant, la norme ISO 13528 ne traite pas de l’évaluation des incertitudes fournies par les participants.

Dans la plupart des cas, la performance d’un laboratoire est évaluée en mesurant la justesse et la répétabilité de ses résultats.

Aspect conventionnel de l'évaluation

Il convient de ne pas oublier que l’évaluation contient une part « conventionnelle » plus ou moins importante pour la détermination :

De la valeur de référence considérée comme « vraie » ;
De la valeur de dispersion prise pour référence ;
Des seuils choisis pour décider des alertes.

L’existence d’une valeur que l’on peut considérer comme vraie n’est pas toujours évidente. Dans certains cas (notamment dans le cas de la détermination de la composition d’un mélange), elle existe manifestement. Dans d’autres cas (notamment lorsque le matériau est intrinsèquement hétérogène), la norme ISO 5725-1 reconnait qu’elle peut ne pas exister et que la valeur assignée est alors conventionnelle. Pour les comparaisons inter laboratoires organisées par CompaLab, un exemple typique de ce cas est la mesure d’A_gt lors d’essais de traction selon la norme ISO 6892-1 : les résultats obtenus pour cette caractéristique varient selon l’endroit de l’éprouvette où l’on effectue la détermination, selon la longueur de l’éprouvette, selon la longueur de base de la mesure, etc. … une valeur « vraie » devrait alors tenir compte de tous les endroits de détermination possibles sur l’éprouvette, de toutes les longueurs d’éprouvette possibles, de toutes les longueurs de base possibles, etc. … Ceci est matériellement impossible puisque l’essai est destructif et que sur un échantillon de longueur finie, le nombre de longueurs d’éprouvette et de longueurs de base possibles est infini. La valeur assignée est alors une valeur de référence acceptée, déterminée selon un processus déterminé, mais qui inclut une part de convention.

L’existence d’une valeur de dispersion que l’on peut considérer comme « vraie » n’est pas toujours évidente non plus, notamment dans les cas et pour les raisons évoquées ci-dessus. Il convient de bien distinguer ce problème d’existence d’une valeur « vraie » et le problème de l’estimation de cette valeur (toujours un peu difficile dans le cas de l’estimation d’une dispersion). Le premier problème est un problème technique d’existence effective d’une valeur « vraie » de la dispersion, alors que le deuxième est un problème statistique classique d’estimation de la valeur d’un paramètre au moyen d’un nombre limité de déterminations.

Les § 5 et § 6 de la norme ISO 13528 prévoient une possibilité que les valeurs de référence pour l’évaluation des laboratoires proviennent d’un texte normatif ou règlementaire. Dans ce cas, la définition même de ces valeurs leur confère un caractère conventionnel.

Les valeurs « vraies » utilisées pour évaluer les laboratoires incluent donc la plupart du temps une part de convention plus ou moins importante.

Concernant les seuils, les habitudes, reprises par la norme ISO 13528, font que les organisateurs de comparaisons inter laboratoires attribuent généralement aux résultats d’essais obtenus des scores. Ces scores sont ensuite utilisés dans un test statistique qui décide s’ils possèdent une probabilité maximale de 0,3% ou une probabilité maximale de 5% de dépasser des limites correspondantes, si les résultats d’essai font effectivement partie de leu population mère.

Ces probabilités maximales proviennent de valeurs « u » de la loi de distribution normale (centrée réduite) égales respectivement à ±2 et ±3 et sont tout à fait arbitraires. Des valeurs de limite de probabilité de 1% ou de 10% seraient tout aussi significatives, avec évidemment des seuils d’alerte différents !

Fiabilité de l'évaluation

La fiabilité de toute évaluation de la performance d’un laboratoire au moyen d’une comparaison inter laboratoires est conditionnée par :

La stabilité et l’homogénéité des échantillons utilisés ;
L’adéquation et la robustesse des techniques statistiques utilisées, en fonction des impératifs techniques liés aux méthodes d’essais concernées et du nombre de participants ;
L’influence d’éventuels artéfacts, notamment les arrondis intempestifs ;
Le cas échéant, la façon dont l’incertitude de mesure des participants est prise en compte.

L’objet des normes ISO/CEI 17043 et ISO 13528 est avant tout d’assurer la fiabilité des évaluations au moyen de comparaisons inter laboratoires. En particulier les questions de stabilité et d’homogénéité des échantillons, d’adéquation des statistiques utilisées y sont largement développées. Il est évident qu’une évaluation correcte de la performance d’un laboratoire est impossible si les échantillons utilisés pour cela ne sont pas suffisamment semblables ou si les statistiques utilisées ne sont pas appropriées. Pour plus de détails à ce sujet, le lecteur est invité à consulter le résumé de l’ISO 13528.

Le respect des prescriptions des normes ISO/CEI 17043 et ISO 13528 permet d’éviter les risques de manque de fiabilité liés aux opérations réalisées sous le contrôle de l’organisateur des comparaisons inter laboratoires.

Indépendamment de la lettre de ces textes, il convient de garder à l’esprit qu’un calcul statistique ne peut pas fournir plus d’information que ce que les données utilisées contiennent. En conséquence, les conditions dans lesquelles les données ont été élaborées comptent autant que l’adéquation des méthodes statistiques utilisées. Parmi les points importants à contrôler, on peut citer :

La maîtrise de la dispersion prise en compte ;
Les artefacts.

Un exemple significatif de l’importance de la maîtrise de la dispersion prise en compte est le cas où la procédure de confection d’échantillon influe significativement sur le résultat d’essai. La compétence du laboratoire pour confectionner correctement les échantillons peut alors devenir plus critique que celle nécessaire pour réaliser les essais proprement dits. Il convient alors que l’organisateur de la comparaison inter laboratoires décide, en fonction des contingences techniques liées au produit et à l’essai, quelle part de la confection des échantillons est attribuée des participants, quels paramètres correspondants sont fixés par l’organisateur et quels paramètres sont laissés au choix du participant. Il convient aussi que les participants soient conscients de ce que les écarts-types de dispersion publiés représentent, en fonction de la façon dont les paramètres de confection des échantillons ont été fixés.

Note : Parmi les comparaisons inter laboratoires organisées par CompaLab, cela concerne notamment l’essai Charpy, pour lequel la norme d’essai prévoit des spécifications dimensionnelles serrées pour les éprouvettes d’essais. La signification des écarts-types publiés n’est pas identique selon que ces éprouvettes sont usinées par l’organisateur ou par les participants.

Un exemple significatif d’artefact est le cas d’arrondis intempestifs sur les résultats d’essais fournis par les participants. Il est évident que si, à l’extrême, les résultats sont arrondis à ±1 alors que la reproductibilité de l’essai est de ±0,1, les résultats des participants seront tous arrondis à la même valeur et les écarts-types calculés par l’organisateur seront tous égaux à 0. Dans ce cas, l’opération d’arrondi intempestif a retiré des données toute l’information pertinente relative à la dispersion, et tout calcul statistique mathématiquement juste fournit un résultat d’évaluation faux. Dans la pratique, un arrondissement aussi intempestif des données ne se rencontre pas, car il pose évidemment ensuite un problème à l’organisateur. Cependant, il est de bonne pratique pour les laboratoires d’arrondir leurs résultats d’essais à un niveau proche de l’incertitude sur leurs résultats. Ceci est alors nocif lors d’une participation à une comparaison inter laboratoires car, par le mécanisme décrit ci-dessus, cela biaise de façon sournoise l’évaluation des écarts-types de dispersion.

Un autre exemple significatif d’artefact est les cas où la valeur assignée se situe à la limite de détection des appareils de mesure (par exemple détermination de traces en chimie), où certains participants expriment leurs résultats d’essais sous la forme « <0,001 ». Les calculs de biais et de dispersion en sont évidemment affectés. La norme ISO 13528 recommande d’ailleurs aux organisateurs de comparaisons inter laboratoires de ne pas accepter les résultats exprimés sous cette forme.

Au-delà du respect des prescriptions des normes ISO/CEI 17043 et ISO 13528 par l’organisateur des comparaisons inter laboratoires, il est de la responsabilité des participants de bien étudier et interpréter les rapports de comparaisons inter laboratoires, et notamment la signification des écarts-types fournis.

Enfin, comme tous les résultats d’évaluation, les signaux d’alerte fournis par les participations sont assortis de deux risques, reliés aux risques appelés α et β des tests statistiques :

Le risque α (alpha) de déclencher une alerte alors que les résultats du laboratoire appartiennent à la population des résultats obtenus en respectant les prescriptions de la méthode d’essai ;
Le risque β (beta) de ne pas déclencher une alerte alors que les résultats du laboratoire n’appartiennent pas à la population des résultats obtenus en respectant les prescriptions de la méthode d’essai.

Le risque α correspond au cas d’un laboratoire qui met en œuvre la méthode d’essai conformément aux spécifications par un personnel compétent, utilise un équipement et des consommables appropriés dans les conditions environnementales requises. Cependant, une combinaison malheureuse d’erreurs acceptables s’est produite pour aboutir à un résultat dont le biais est significatif. Cette combinaison malheureuse a une probabilité α faible mais non nulle de se produire. Cette valeur α est celle utilisée dans les tests statistiques mis en œuvre par l’organisateur de la comparaison inter laboratoires. Comme mentionné plus haut, les valeurs implicitement recommandées par la norme ISO 13528 pour α sont 5% pour le signal d’avertissement et 0,3% pour le signal d’action.

Le risque β correspond au cas d’un laboratoire qui présente un ou plusieurs écarts significatifs dans sa mise en œuvre de la méthode d’essai ou dans la compétence de son personnel ou dans l’état de son équipement ou sur l’adéquation des consommables qu’il utilise ou dans les conditions environnementales dans lesquelles il réalise les essais. Cependant, le jour de la réalisation des essais pour la comparaison inter laboratoires, une combinaison favorable de ces erreurs s’est produite de façon fortuite, de sorte que le participant n’a pas fait l’objet d’un signal d’alerte. La probabilité β correspondante est difficile à calculer mais elle est évidemment également jamais nulle, et dans certains cas, assez importante. Elle dépend essentiellement :

Du nombre de participants, lorsque les valeurs assignées sont estimées à l’aide des résultats des participants (voir § 5 et § 6 du résumé de l’ISO 13528). Il est évident qu’au plus le nombre de participants est important, au plus les valeurs assignées sont estimées avec précision et que les tests d’alerte sont discriminants. Dans le cas extrême où le nombre de participants est réduit à 2 et que les valeurs habituelles sont retenues pour le risque α, le calcul ne peut jamais conduire à une alerte, quels que soient les résultats des participants : le risque β est donc égal à 1 ;
De l’importance des écarts du laboratoire : les écarts ayant une influence très importante sur les résultats d’essais ont plus de probabilité de déclencher un signal d’alerte qu’un écart significatif mais d’importance moindre.

En conclusion, l’absence d’alerte ne signifie nécessairement pas l’absence d’écart et la présence d’une alerte est une présomption mais pas une certitude de la présence d’écart à corriger par le laboratoire.

En plus des paramètres de biais et de dispersion, l’organisateur peut demander aux participants de fournir les incertitudes attachées à leurs résultats. Cette information peut être utilisée pour calculer des scores de type z’, dans lesquels l’incertitude propre du participant est prise en compte au côté de la reproductibilité. Les scores correspondants sont alors moins sévères pour les laboratoires. La norme ISO 13528 décrit plusieurs types de scores, avec dans chaque cas une version qui prend en compte l’incertitude.

Il est à noter que pour certaines méthodes d’essai, l’estimation des incertitudes est complexe et peu fiable. Les laboratoires peuvent alors être amenés à surestimer leurs incertitudes. Dans de tels cas, la prise en compte des incertitudes dans la comparaison inter laboratoires conduit à réduire le risque α mais à augmenter le risque β.

Scores d’évaluation des résultats individuels

L’évaluation des résultats individuels est généralement réalisée à l’aide de scores (cf. plus haut). Les scores et les limites correspondantes sont plus ou moins discriminants selon la méthode utilisée pour les calculer (cf. notamment choix d’une loi de distribution). Le choix de cette méthode répond avant tout à un objectif de fiabilité des résultats d’évaluation (cf. ci-dessus). Ce critère peut conduire à écarter des méthodes de calcul plus discriminantes mais moins adaptées au cas concerné (cf. par exemple les cas où l’on s’abstient d’utiliser la loi de distribution normale car elle n’est pas adaptée aux résultats).

Il en résulte que pour une même série de données, un signal d’alerte peut être déclenché ou non pour un laboratoire, selon la méthode statistique utilisée.

Signification des alertes

Les résultats de l’essai d’aptitude ne sont valides que pour le produit et la méthode d’essai concernés.En conformité avec les normes ISO/CEI 17043 et ISO 15328, il doit être rappelé que des résultats anormaux peuvent être obtenus même dans les laboratoires ayant de bonnes pratiques, avec du personnel compétent. Pour cette raison, les critères fournis par ces normes ne doivent pas être utilisés pour condamner un participant.

Le déclenchement d’une alerte signifie que les résultats sont si exceptionnels (cf. risques α ci-dessus) qu’ils méritent une investigation. Les causes habituelles d’écart sont :

Produit soumis à la comparaison inter laboratoires différent de ceux habituellement traités par le laboratoire ;
Erreur grossière dans la saisie des données nécessaires pour réaliser les essais, ou dans les calculs ou dans le report des résultats ;
Equipement insatisfaisant ;
Consommables insatisfaisants ;
Personnel insuffisamment compétent ;
Ecart à la méthode prescrite ;
Combinaison de sources d’erreur mineures.

Ces causes d’écart peuvent être à l’origine d’un biais et/ou d’un manque de répétabilité.
Une action corrective devrait être envisagée en correspondance avec les résultats de cette investigation. En regard de ce qui précède, cela peut être :

Amélioration de la précision de la définition du champ de compétence du laboratoire ;
Amélioration de la procédure de saisie des données, du calcul et du report des résultats, du contrôle de ces opérations ;
Réparation ou remplacement des équipements insatisfaisants, amélioration de la procédure de vérification et de maintenance des équipements ;
Amélioration des spécifications ou de la procédure de vérification pour l’approvisionnement des consommables ;
Amélioration des exigences pour le personnel ou de la formation correspondante ;
Identification et suppression des écarts à la méthode prescrite ;
Mise en œuvre par le laboratoire d’exigences plus sévères que celles prescrites par la norme décrivant l’essai (applicable lorsque le biais constaté résulte de la combinaison d’erreurs mineures).

L’investigation peut également montrer qu’aucune cause substantielle d’écart dans les résultats n’est présente. Le laboratoire peut alors décider de mettre en œuvre aucune action corrective immédiatement et de mettre son processus d’essai sous surveillance particulière pendant un certain temps. La norme ISO/CEI 17025 § 5.9 fournit plusieurs possibilités correspondantes, en plus de la participation à une comparaison inter laboratoires :

Vérifications à l’aide de matériaux de référence ;
Réitération d’essais ;
Corrélation de résultats.

Cette surveillance du processus d’essai doit permettre de déterminer si la cause d’écart n’a pas été trouvée ou s’il est vraiment certain qu’aucune cause substantielle d’écart dans les résultats n’est présente.

En conclusion, les résultats d’une comparaison inter laboratoires doivent être utilisés comme des alertes devant déclencher une recherche des causes possibles d’écart et si nécessaire, les actions correctives appropriées correspondantes.

Plus d'informations :

Voir Quelles comparaisons inter laboratoires sont proposées

Vous inscrire pour participer à une CIL