Dati i tassi di vero positivo, falso negativo, puoi calcolare il falso positivo, vero negativo?

C’è un bel po’ di confusione terminologica in questo settore. Personalmente, trovo sempre utile tornare a una matrice di confusione per pensare a questo. In un test di classificazione / screening, si possono avere quattro situazioni diverse:

 Condition: A Not A Test says "A" True positive | False positive ---------------------------------- Test says "Not A" False negative | True negative

In questa tabella, “vero positivo”, “falso negativo”, “falso positivo” e “vero negativo” sono eventi (o la loro probabilità). Quello che avete è quindi probabilmente un tasso di vero positivo e un tasso di falso negativo. La distinzione è importante perché sottolinea che entrambi i numeri hanno un numeratore e un denominatore.

Dove le cose diventano un po’ confuse è che si possono trovare diverse definizioni di “tasso di falso positivo” e “tasso di falso negativo”, con diversi denominatori.

Per esempio, Wikipedia fornisce le seguenti definizioni (sembrano abbastanza standard):

  • Tasso di veri positivi (o sensibilità): $TPR = TP/(TP + FN)$
  • Tasso di falsi positivi: $FPR = FP/(FP + TN)$
  • Tasso di veri negativi (o specificità): $TNR = TN/(FP + TN)$

In tutti i casi, il denominatore è il totale della colonna. Questo dà anche uno spunto per la loro interpretazione: Il tasso di vero positivo è la probabilità che il test dica “A” quando il valore reale è effettivamente A (cioè, è una probabilità condizionata, condizionata al fatto che A sia vero). Questo non vi dice quanto è probabile che siate corretti quando chiamate “A” (cioè la probabilità di un vero positivo, condizionato al fatto che il risultato del test sia “A”).

Assumendo che il tasso di falsi negativi sia definito allo stesso modo, abbiamo allora $FNR = 1 – TPR$ (notate che i vostri numeri sono coerenti con questo). Non possiamo però derivare direttamente il tasso di falsi positivi dai tassi di veri positivi o falsi negativi perché non forniscono informazioni sulla specificità, cioè come si comporta il test quando “non A” è la risposta corretta. La risposta alla tua domanda sarebbe quindi “no, non è possibile” perché non hai informazioni sulla colonna di destra della matrice di confusione.

Ci sono comunque altre definizioni in letteratura. Per esempio, Fleiss (Statistical methods for rates and proportions) offre le seguenti:

  • “il tasso di falsi positivi è la proporzione di persone, tra quelle che rispondono positivamente, che sono effettivamente esenti dalla malattia.”
  • “Il tasso di falsi negativi è la proporzione di persone, tra quelle che rispondono negativamente al test, che tuttavia hanno la malattia.”

(Riconosce anche le definizioni precedenti, ma le considera “spreco di terminologia preziosa”, proprio perché hanno una relazione diretta con la sensibilità e la specificità.)

Riferimento alla matrice di confusione, significa che $FPR = FP / (TP + FP)$ e $FNR = FN / (TN + FN)$ quindi i denominatori sono i totali delle righe. È importante notare che, sotto queste definizioni, i tassi di falsi positivi e falsi negativi non possono essere derivati direttamente dalla sensibilità e specificità del test. È anche necessario conoscere la prevalenza (cioè, quanto è frequente A nella popolazione di interesse).

Fleiss non usa o definisce le frasi “tasso di veri negativi” o il “tasso di veri positivi”, ma se assumiamo che queste siano anche probabilità condizionali dato un particolare risultato del test / classificazione, allora la risposta di @guill11aume è quella corretta.

In ogni caso, è necessario fare attenzione alle definizioni perché non c’è una risposta indiscutibile alla tua domanda.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato.