Givet sande positive og falske negative tal, kan man så beregne falske positive og sande negative tal?

Der er en hel del terminologisk forvirring på dette område. Personligt synes jeg altid, at det er nyttigt at vende tilbage til en forvirringsmatrix for at tænke over dette. I en klassifikations-/screeningtest kan man have fire forskellige situationer:

 Condition: A Not A Test says "A" True positive | False positive ---------------------------------- Test says "Not A" False negative | True negative

I denne tabel er “sandt positiv”, “falsk negativ”, “falsk positiv” og “sandt negativ” begivenheder (eller deres sandsynlighed). Det, du har, er derfor sandsynligvis en sand positiv rate og en falsk negativ rate. Distinktionen er vigtig, fordi den understreger, at begge tal har en tæller og en nævner.

Det sted, hvor tingene bliver lidt forvirrende, er, at man kan finde flere definitioner af “falsk positiv rate” og “falsk negativ rate”, med forskellige nævneres.

For eksempel giver Wikipedia følgende definitioner (de virker ret standard):

  • Sandt positiv rate (eller følsomhed): $TPR = TP/(TP + FN)$
  • Falsk positiv rate: $TPR = TP/(TP + FN)$
  • Falsk positiv rate: $FPR = FP/(FP + TN)$
  • True negativ rate (eller specificitet): $TNR = TN/(FP + TN)$

I alle tilfælde er nævneren den samlede kolonne. Dette giver også et fingerpeg om deres fortolkning: Den sande positive rate er sandsynligheden for, at testen siger “A”, når den reelle værdi faktisk er A (dvs. det er en betinget sandsynlighed, betinget af, at A er sandt). Det fortæller ikke, hvor sandsynligt det er, at man har ret, når man siger “A” (dvs. sandsynligheden for et sandt positivt resultat, betinget af, at testresultatet er “A”).

Hvis man antager, at den falsk negative rate defineres på samme måde, har vi så $FNR = 1 – TPR$ (bemærk, at dine tal er i overensstemmelse med dette). Vi kan imidlertid ikke direkte udlede den falsk positive rate fra hverken den rigtige positive eller falsk negative rate, fordi de ikke giver nogen oplysninger om specificiteten, dvs. hvordan testen opfører sig, når “ikke A” er det korrekte svar. Svaret på dit spørgsmål ville derfor være “nej, det er ikke muligt”, fordi du ikke har nogen oplysninger om den højre kolonne i forvirringsmatrixen.

Der findes dog andre definitioner i litteraturen. F.eks. tilbyder Fleiss (Statistical methods for rates and proportions) følgende:

  • ” the false positive rate is the proportion of people, among those responding positive who are actually free of the disease.”
  • “The false negative rate is the proportion of people, among those responding negative on the test, who nevertheless have the disease.”
  • “The false negative rate is the proportion of people, among those responding negative on the test, who nevertheless have the disease.”

(Han anerkender også de tidligere definitioner, men mener, at de er “spild af kostbar terminologi”, netop fordi de har en ligefrem sammenhæng med sensitivitet og specificitet.”

Med hensyn til forvekslingsmatricen betyder det, at $FPR = FP / (TP + FP)$ og $FNR = FN / (TN + FN)$, så nævnerne er rækkesummene. Det er vigtigt at bemærke, at med disse definitioner kan de falsk positive og falsk negative tal ikke direkte udledes af testens følsomhed og specificitet. Du skal også kende prævalensen (dvs. hvor hyppig A er i den pågældende population).

Fleiss bruger eller definerer ikke udtrykkene “true negative rate” eller “true positive rate”, men hvis vi antager, at disse også er betingede sandsynligheder givet et bestemt testresultat/klassifikation, så er @guill11aumes svar det korrekte.

Du skal under alle omstændigheder være forsigtig med definitionerne, fordi der ikke er noget ubestrideligt svar på dit spørgsmål.

Skriv et svar

Din e-mailadresse vil ikke blive publiceret.