Donné les vrais positifs, les taux de faux négatifs, pouvez-vous calculer les faux positifs, les vrais négatifs ?

Il y a pas mal de confusion terminologique dans ce domaine. Personnellement, je trouve toujours utile de revenir à une matrice de confusion pour y réfléchir. Dans un test de classification / dépistage, vous pouvez avoir quatre situations différentes :

 Condition: A Not A Test says "A" True positive | False positive ---------------------------------- Test says "Not A" False negative | True negative

Dans ce tableau, « vrai positif », « faux négatif », « faux positif » et « vrai négatif » sont des événements (ou leur probabilité). Ce que vous avez est donc probablement un taux de vrais positifs et un taux de faux négatifs. La distinction importe car elle souligne que les deux nombres ont un numérateur et un dénominateur.

Là où les choses deviennent un peu confuses, c’est que vous pouvez trouver plusieurs définitions de « taux de faux positifs » et de « taux de faux négatifs », avec des dénominateurs différents.

Par exemple, Wikipedia fournit les définitions suivantes (elles semblent assez standard) :

  • Taux de vrais positifs (ou sensibilité) : $TPR = TP/(TP + FN)$
  • Taux de faux positifs : $FPR = FP/(FP + TN)$
  • Taux de vrais négatifs (ou spécificité) : $TNR = TN/(FP + TN)$

Dans tous les cas, le dénominateur est le total de la colonne. Cela donne également un indice sur leur interprétation : Le taux de vrais positifs est la probabilité que le test dise « A » alors que la valeur réelle est effectivement A (c’est-à-dire que c’est une probabilité conditionnelle, à condition que A soit vrai). Cela ne vous dit pas quelle est la probabilité que vous ayez raison lorsque vous dites « A » (c’est-à-dire la probabilité d’un vrai positif, conditionnée au fait que le résultat du test soit « A »).

En supposant que le taux de faux négatifs soit défini de la même manière, nous avons alors $FNR = 1 – TPR$ (notez que vos chiffres sont cohérents avec cela). Nous ne pouvons cependant pas dériver directement le taux de faux positifs à partir des taux de vrais positifs ou de faux négatifs, car ils ne fournissent aucune information sur la spécificité, c’est-à-dire sur le comportement du test lorsque « pas A » est la bonne réponse. La réponse à votre question serait donc « non, ce n’est pas possible » car vous n’avez aucune information sur la colonne de droite de la matrice de confusion.

Il existe cependant d’autres définitions dans la littérature. Par exemple, Fleiss (Méthodes statistiques pour les taux et les proportions) propose les suivantes :

  •  » le taux de faux positifs est la proportion de personnes, parmi celles qui répondent positivement, qui sont en réalité indemnes de la maladie. « 
  • « Le taux de faux négatifs est la proportion de personnes, parmi celles qui répondent négativement au test, qui ont néanmoins la maladie. »

(Il reconnaît également les définitions précédentes mais les considère comme un « gaspillage de terminologie précieuse », précisément parce qu’elles ont une relation directe avec la sensibilité et la spécificité.)

S’agissant de la matrice de confusion, cela signifie que $FPR = FP / (TP + FP)$ et $FNR = FN / (TN + FN)$, de sorte que les dénominateurs sont les totaux des lignes. Il est important de noter que, selon ces définitions, les taux de faux positifs et de faux négatifs ne peuvent pas être directement dérivés de la sensibilité et de la spécificité du test. Vous devez également connaître la prévalence (c’est-à-dire la fréquence de A dans la population d’intérêt).

Fleiss n’utilise pas ou ne définit pas les expressions « taux de vrais négatifs » ou le « taux de vrais positifs », mais si nous supposons que ce sont également des probabilités conditionnelles étant donné un résultat de test particulier / classification, alors la réponse de @guill11aume est la bonne.

Dans tous les cas, vous devez être prudent avec les définitions car il n’y a pas de réponse indiscutable à votre question.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.