roc - Teniendo en cuenta las tasas de verdaderos positivos y falsos negativos, ¿puede calcular los falsos positivos y los verdaderos negativos? - Cross Validated

Hay bastante confusión terminológica en esta área. Personalmente, siempre encuentro útil volver a una matriz de confusión para pensar en esto. En una prueba de clasificación / cribado, puedes tener cuatro situaciones diferentes:

 Condition: A Not A Test says "A" True positive | False positive ---------------------------------- Test says "Not A" False negative | True negative

En esta tabla, «verdadero positivo», «falso negativo», «falso positivo» y «verdadero negativo» son eventos (o su probabilidad). Por lo tanto, lo que tiene es probablemente una tasa de verdaderos positivos y una tasa de falsos negativos. La distinción es importante porque enfatiza que ambos números tienen un numerador y un denominador.

Donde las cosas se vuelven un poco confusas es que puedes encontrar varias definiciones de «tasa de falsos positivos» y «tasa de falsos negativos», con diferentes denominadores.

Por ejemplo, Wikipedia proporciona las siguientes definiciones (parecen bastante estándar):

Tasa de verdaderos positivos (o sensibilidad): $TPR = TP/(TP + FN)$
Tasa de falsos positivos: $FPR = FP/(FP + TN)$
Tasa de verdaderos negativos (o especificidad): $TNR = TN/(FP + TN)$

En todos los casos, el denominador es el total de la columna. Esto también da una pista sobre su interpretación: La tasa de verdaderos positivos es la probabilidad de que la prueba diga «A» cuando el valor real es efectivamente A (es decir, es una probabilidad condicional, condicionada a que A sea verdadero). No indica la probabilidad de acertar cuando dice «A» (es decir, la probabilidad de un verdadero positivo, condicionada a que el resultado de la prueba sea «A»).

Suponiendo que la tasa de falsos negativos se defina de la misma manera, tenemos entonces $FNR = 1 – TPR$ (observe que sus números son coherentes con esto). Sin embargo, no podemos derivar directamente la tasa de falsos positivos a partir de las tasas de verdaderos positivos o falsos negativos porque no proporcionan información sobre la especificidad, es decir, cómo se comporta la prueba cuando «no A» es la respuesta correcta. Por lo tanto, la respuesta a su pregunta sería «no, no es posible» porque no tiene información sobre la columna derecha de la matriz de confusión.

Sin embargo, existen otras definiciones en la literatura. Por ejemplo, Fleiss (Statistical methods for rates and proportions) ofrece lo siguiente:

«La tasa de falsos positivos es la proporción de personas, entre las que responden positivamente, que realmente están libres de la enfermedad.»
«La tasa de falsos negativos es la proporción de personas, entre las que responden negativamente en la prueba, que sin embargo tienen la enfermedad.»

(También reconoce las definiciones anteriores pero las considera «un despilfarro de terminología preciosa», precisamente porque tienen una relación directa con la sensibilidad y la especificidad.)

Respecto a la matriz de confusión, significa que $FPR = FP / (TP + FP)$ y $FNR = FN / (TN + FN)$ por lo que los denominadores son los totales de las filas. Es importante destacar que, con estas definiciones, las tasas de falsos positivos y falsos negativos no pueden derivarse directamente de la sensibilidad y la especificidad de la prueba. También es necesario conocer la prevalencia (es decir, la frecuencia de A en la población de interés).

Fleiss no utiliza ni define las frases «tasa de verdaderos negativos» o «tasa de verdaderos positivos», pero si asumimos que también son probabilidades condicionales dado un resultado de la prueba/clasificación particular, entonces la respuesta de @guill11aume es la correcta.

En cualquier caso, hay que tener cuidado con las definiciones porque no hay una respuesta indiscutible a su pregunta.

Dadas las tasas de verdaderos positivos y falsos negativos, ¿puedes calcular los falsos positivos y los verdaderos negativos?

Deja una respuesta Cancelar la respuesta