Genom sant positiva och falskt negativa tal, kan man då beräkna falskt positiva och sant negativa tal?

Det råder en hel del terminologisk förvirring på det här området. Personligen tycker jag alltid att det är användbart att återkomma till en förvirringsmatris för att tänka på detta. I ett klassificerings-/screeningtest kan man ha fyra olika situationer:

 Condition: A Not A Test says "A" True positive | False positive ---------------------------------- Test says "Not A" False negative | True negative

I denna tabell är ”sant positiv”, ”falskt negativ”, ”falskt positiv” och ”sant negativ” händelser (eller deras sannolikhet). Det du har är därför troligen en sant positiv andel och en falskt negativ andel. Distinktionen är viktig eftersom den understryker att båda siffrorna har en täljare och en nämnare.

Där det blir lite förvirrande är att man kan hitta flera definitioner av ”falskt positiv frekvens” och ”falskt negativ frekvens”, med olika nämnare.

På Wikipedia finns till exempel följande definitioner (de verkar ganska standardiserade):

  • Sannolik positiv frekvens (eller känslighet): $TPR = TP/(TP + FN)$
  • Falskt positiv frekvens: $FPR = FP/(FP + TN)$
  • Sannolik negativ frekvens (eller specificitet): $TNR = TN/(FP + TN)$

I samtliga fall är nämnaren kolumnsumman. Detta ger också en fingervisning om deras tolkning: Det ger också en indikation på hur man tolkar detta. Den sant positiva andelen är sannolikheten för att testet säger ”A” när det verkliga värdet verkligen är A (dvs. det är en villkorad sannolikhet som är villkorad av att A är sant). Detta talar inte om hur sannolikt det är att man har rätt när man säger ”A” (dvs. sannolikheten för ett sant positivt resultat, betingat av att testresultatet är ”A”).

Antagen att den falskt negativa andelen definieras på samma sätt, har vi då $FNR = 1 – TPR$ (observera att dina siffror stämmer överens med detta). Vi kan dock inte direkt härleda andelen falskt positiva från antingen andelen sant positiva eller falskt negativa eftersom de inte ger någon information om specificiteten, dvs. hur testet beter sig när ”inte A” är det rätta svaret. Svaret på din fråga skulle därför vara ”nej, det är inte möjligt” eftersom du inte har någon information om den högra kolumnen i förvirringsmatrisen.

Det finns dock andra definitioner i litteraturen. Till exempel erbjuder Fleiss (Statistical methods for rates and proportions) följande:

  • ” Den falskt positiva andelen är den andel av personerna, bland dem som svarar positivt, som faktiskt är fria från sjukdomen.”
  • ”Den falskt negativa andelen är den andel av personerna, bland dem som svarar negativt på testet, som ändå har sjukdomen.”

(Han erkänner också de tidigare definitionerna men anser att de är ”slöseri med dyrbar terminologi”, just för att de har ett rakt samband med sensitivitet och specificitet.)

Med hänvisning till förväxlingsmatrisen betyder det att $FPR = FP / (TP + FP)$ och $FNR = FN / (TN + FN)$, så nämnarna är radsummorna. Det är viktigt att det enligt dessa definitioner inte är möjligt att direkt härleda andelen falskt positiva och falskt negativa resultat från testets sensitivitet och specificitet. Man måste också känna till prevalensen (dvs. hur vanligt A är i den aktuella populationen).

Fleiss använder eller definierar inte fraserna ”true negative rate” eller ”true positive rate”, men om vi antar att dessa också är villkorade sannolikheter givet ett visst testresultat/klassificering, så är @guill11aumes svar det korrekta.

I vilket fall som helst måste man vara försiktig med definitionerna, eftersom det inte finns något obestridligt svar på din fråga.

Lämna ett svar

Din e-postadress kommer inte publiceras.