roc - Můžete vypočítat falešně pozitivní a falešně negativní hodnoty? - Křížově ověřeno

V této oblasti panuje poměrně velký terminologický zmatek. Osobně považuji za užitečné se vždy vracet k matici záměn a přemýšlet o tom. V klasifikačním / screeningovém testu můžete mít čtyři různé situace:

 Condition: A Not A Test says "A" True positive | False positive ---------------------------------- Test says "Not A" False negative | True negative

V této tabulce jsou „true positive“, „false negative“, „false positive“ a „true negative“ události (nebo jejich pravděpodobnost). To, co máte, je tedy pravděpodobně míra pravdivé pozitivity a míra falešné negativity. Na tomto rozlišení záleží, protože zdůrazňuje, že obě čísla mají čitatele a jmenovatele.

Tady to začíná být trochu matoucí, protože můžete najít několik definic „falešně pozitivní míry“ a „falešně negativní míry“ s různými jmenovateli.

Například Wikipedie uvádí následující definice (zdají se být celkem standardní):

Pravdivě pozitivní míra (nebo citlivost): $TPR = TP/(TP + FN)$
Falešně pozitivní míra:
Pravdivě negativní míra (neboli specifičnost): $TNR = TN/(FP + TN)$

Ve všech případech je jmenovatelem celkový počet sloupců. To také napovídá jejich interpretaci: Je to podmíněná pravděpodobnost, že test říká „A“, když skutečná hodnota je skutečně A (tj. je to podmíněná pravděpodobnost, podmíněná tím, že A je pravdivé). Nevypovídá o tom, s jakou pravděpodobností je správné volání „A“ (tj. o pravděpodobnosti pravdivé pozitivity, podmíněné tím, že výsledek testu je „A“).

Předpokládáme-li, že míra falešné negativity je definována stejným způsobem, pak máme $FNR = 1 – TPR$ (všimněte si, že vaše čísla tomu odpovídají). Míru falešné pozitivity však nemůžeme přímo odvodit ani z míry pravdivé pozitivity, ani z míry falešné negativity, protože neposkytují žádnou informaci o specificitě, tj. o tom, jak se test chová v případě, že správnou odpovědí je „není A“. Odpověď na vaši otázku by tedy zněla „ne, není to možné“, protože o pravém sloupci matice záměny nemáte žádné informace.

V literatuře však existují i jiné definice. Například Fleiss (Statistical methods for rates and proportions) nabízí následující:

„Falešně pozitivní míra je podíl lidí, mezi těmi, kteří odpověděli pozitivně, kteří jsou ve skutečnosti bez onemocnění.“
„Falešně negativní míra je podíl lidí, mezi těmi, kteří odpověděli negativně na test, kteří přesto mají onemocnění.“

(Uznává i předchozí definice, ale považuje je za „plýtvání vzácnou terminologií“, právě proto, že mají přímý vztah k citlivosti a specifičnosti.“

Vzhledem k matici záměn to znamená, že $FPR = FP / (TP + FP)$ a $FNR = FN / (TN + FN)$, takže jmenovateli jsou řádkové součty. Důležité je, že podle těchto definic nelze z citlivosti a specifičnosti testu přímo odvodit míru falešně pozitivních a falešně negativních výsledků. Musíte také znát prevalenci (tj. jak častý je výskyt A v populaci, která vás zajímá).

Fleiss nepoužívá ani nedefinuje výrazy „true negative rate“ nebo „true positive rate“, ale pokud předpokládáme, že to jsou také podmíněné pravděpodobnosti vzhledem ke konkrétnímu výsledku testu / klasifikaci, pak je odpověď @guill11aume správná.

V každém případě musíte být s definicemi opatrní, protože na vaši otázku neexistuje nezpochybnitelná odpověď.

Při dané míře pravdivé pozitivity, falešné negativity můžete vypočítat falešnou pozitivitu, pravdivou negativitu?

Napsat komentář Zrušit odpověď na komentář