roc - Adott igaz pozitív, hamis negatív arányok, ki tudja számítani a hamis pozitív, igaz negatív? - Cross Validated

Elég sok terminológiai zűrzavar van ezen a területen. Én személy szerint mindig hasznosnak találom, ha egy zűrzavar-mátrixhoz térünk vissza, hogy átgondoljuk ezt. Egy osztályozási/szűrési tesztben négy különböző helyzet állhat elő:

 Condition: A Not A Test says "A" True positive | False positive ---------------------------------- Test says "Not A" False negative | True negative

Ebben a táblázatban az “igaz pozitív”, “hamis negatív”, “hamis pozitív” és “igaz negatív” események (vagy azok valószínűsége). Ami tehát van, az valószínűleg egy igaz pozitív és egy hamis negatív arány. A megkülönböztetés azért fontos, mert hangsúlyozza, hogy mindkét számnak van számlálója és nevezője.

Ahol a dolgok egy kicsit zavarossá válnak, az az, hogy a “hamis pozitív arány” és a “hamis negatív arány” többféle definícióját is megtalálhatjuk, különböző nevezőkkel.

A Wikipedia például a következő definíciókat adja meg (ezek eléggé standardnak tűnnek):

igaz pozitív arány (vagy érzékenység): $TPR = TP/(TP + FN)$
Hamis pozitív arány:

Minden esetben a nevező az oszlopok összege. Ez az értelmezésükhöz is támpontot ad: A valódi pozitív ráta annak a valószínűsége, hogy a teszt “A”-t mond, amikor a valós érték valóban A (azaz ez egy feltételes valószínűség, amelynek feltétele, hogy A igaz legyen). Ez nem mondja meg, hogy milyen valószínűséggel járunk el helyesen, amikor “A”-t mondunk (azaz a valódi pozitív valószínűsége, feltételezve, hogy a teszteredmény “A”).

Feltéve, hogy a hamis negatív arányt ugyanígy definiáljuk, akkor $FNR = 1 – TPR$ (vegyük észre, hogy az Ön számai összhangban vannak ezzel). A hamis pozitív arányt azonban nem tudjuk közvetlenül levezetni sem a valódi pozitív, sem a hamis negatív arányokból, mert ezek nem adnak információt a specificitásról, azaz arról, hogy hogyan viselkedik a teszt, ha a “nem A” a helyes válasz. A kérdésére tehát az lenne a válasz, hogy “nem, ez nem lehetséges”, mert a zavarmátrix jobb oldali oszlopáról nincs információnk.

A szakirodalomban azonban más definíciók is léteznek. Fleiss (Statistical methods for rates and proportions) például a következőket ajánlja:

” A hamis pozitív arány azon emberek aránya a pozitívan válaszolók között, akik valójában mentesek a betegségtől.”
“A hamis negatív arány azon emberek aránya a tesztre negatívan válaszolók között, akik mégis rendelkeznek a betegséggel.”

(Az előző definíciókat is elismeri, de “értékes terminológia pazarlásának” tartja őket, éppen azért, mert egyenes kapcsolatban állnak az érzékenységgel és a specificitással.)

A zavarmátrixra hivatkozva ez azt jelenti, hogy $FPR = FP / (TP + FP)$ és $FNR = FN / (TN + FN)$, tehát a nevezők a sorok összegei. Fontos, hogy e definíciók alapján a hamis pozitív és hamis negatív arányok nem vezethetők le közvetlenül a teszt érzékenységéből és specificitásából. Ismerni kell a prevalenciát is (azaz, hogy A mennyire gyakori a vizsgált populációban).

Fleiss nem használja vagy definiálja az “igaz negatív arány” vagy az “igaz pozitív arány” kifejezéseket, de ha feltételezzük, hogy ezek is feltételes valószínűségek egy adott teszteredmény/osztályozás mellett, akkor @guill11aume válasza a helyes.

A definíciókkal mindenesetre óvatosan kell bánni, mert nincs vitathatatlan válasz a kérdésedre.

Given true positive, false negative rates, can you calculate false positive, true negative?

Vélemény, hozzászólás? Kilépés a válaszból