Regresión de Poisson

Localización del menú: Análisis_Regresión y Correlación_Poisson

Esta función ajusta un modelo de regresión de Poisson para el análisis multivariante de números de eventos poco comunes en estudios de cohortes.

El modelo de regresión de Poisson multiplicativo se ajusta como una regresión log-lineal (es decir.es decir, un enlace logarítmico y una distribución de error de Poisson), con un desplazamiento igual al logaritmo natural del tiempo-persona si se especifica el tiempo-persona (McCullagh y Nelder, 1989; Frome, 1983; Agresti, 2002). Con el modelo de Poisson multiplicativo, los exponentes de los coeficientes son iguales a la tasa de incidencia (riesgo relativo). Estos riesgos relativos de referencia dan valores relativos a las covariables nombradas para toda la población. Se pueden definir riesgos relativos para una subpoblación multiplicando el riesgo relativo de referencia de esa subpoblación por los riesgos relativos debidos a otras agrupaciones de covariables, por ejemplo, el riesgo relativo de morir de cáncer de pulmón si se es fumador y se ha vivido en una zona con alto contenido de radón. StatsDirect ofrece riesgos relativos de subpoblación para covariables dicotómicas.

Se supone que la variable de resultado/respuesta proviene de una distribución de Poisson. Obsérvese que una distribución de Poisson es la distribución del número de eventos en un intervalo de tiempo fijo, siempre que los eventos se produzcan de forma aleatoria, independientemente en el tiempo y con una tasa constante. Las distribuciones de Poisson se utilizan para modelar eventos por unidad de espacio así como de tiempo, por ejemplo el número de partículas por centímetro cuadrado.

La regresión de Poisson también se puede utilizar para el modelado log-lineal de datos de tablas de contingencia, y para el modelado multinomial. Para los recuentos de la tabla de contingencia se crearían r + c variables indicadoras/dummies como covariables, representando las r filas y las c columnas de la tabla de contingencia:

r1c1 r1c2 r1c3
r2c1 r2c2 r2c3
r3c1 r3c2 r3c3
Respuesta x_r1 x_r2 x_r3 x_c1 x_c2 x_c3
r1c1 1 0 0 1 0 0
r1c2 1 0 0 0 1
r1c3 1 0 0 0 0 1
r2c1 0 1 0 1 0 0
r2c2 0 1 0 1 0
r2c3 1 0 0 0 1
r3c1 0 0 1 1 0 0
r3c2 0 0 1 0 1 0
r3c3 0 0 1 0 1

Adecuación del modelo

Para evaluar la adecuación del modelo de regresión de Poisson, primero debe observar las estadísticas descriptivas básicas de los datos de recuento de eventos. Si la media y la varianza del recuento son muy diferentes (equivalentes en una distribución de Poisson) entonces es probable que el modelo esté sobredisperso.

La opción de análisis del modelo ofrece un parámetro de escala (sp) como medida de sobredispersión; éste es igual al estadístico chi-cuadrado de Pearson dividido por el número de observaciones menos el número de parámetros (covariables e intercepción). Las varianzas de los coeficientes pueden ajustarse multiplicando por sp. Las estadísticas de la prueba de bondad del ajuste y los residuos pueden ajustarse dividiendo por sp. Utilizando un enfoque de cuasi-verosimilitud, sp podría integrarse con la regresión, pero esto supondría un valor fijo conocido para sp, lo que rara vez es el caso. Un mejor enfoque para los modelos de Poisson sobredispersos es utilizar un modelo alternativo paramétrico, la binomial negativa.

El estadístico de prueba de desviación (ratio de verosimilitud), G², es el resumen más útil de la adecuación del modelo ajustado. Representa el cambio en la desviación entre el modelo ajustado y el modelo con un término constante y sin covariables; por lo tanto, G² no se calcula si no se especifica ninguna constante. Si esta prueba es significativa, las covariables contribuyen significativamente al modelo.

La prueba de bondad de ajuste de la desviación refleja el ajuste de los datos a una distribución de Poisson en la regresión. Si esta prueba es significativa, se muestra un asterisco rojo junto al valor P, y debe considerar otras covariables y/o otras distribuciones de error como la binomial negativa.

StatsDirect no excluye/elimina las covariables de su regresión de Poisson si están altamente correlacionadas entre sí. Los modelos que no son de rango completo (rango = número de parámetros) se estiman completamente en la mayoría de las circunstancias, pero normalmente debería considerar combinar o excluir variables, o posiblemente excluir el término constante. Debe buscar expertos en estadística si se encuentra en esta situación.

Validación técnica

La función de desviación es:

– donde y es el número de eventos, n es el número de observaciones y μ es la media de Poisson ajustada.

La función de log-verosimilitud es:

La regresión de máxima verosimilitud procede por mínimos cuadrados reponderados iterativamente, utilizando la descomposición del valor singular para resolver el sistema lineal en cada iteración, hasta que el cambio en la desviación esté dentro de la precisión especificada.

El residuo chi-cuadrado de Pearson es:

El estadístico de prueba de bondad de ajuste de Pearson es:

El residuo de desviación es (Cook y Weisberg, 1982):

-donde D(observación, ajuste) es la desviación y sgn(x) es el signo de x.

El residuo de Freeman-Tukey, estabilizado por la varianza, es (Freeman y Tukey, 1950):

El residuo estandarizado es:

– donde h es la palanca (diagonal de la matriz Hat).

Ejemplo

De Armitage et al. (2001):

Libro de trabajo de prueba (hoja de trabajo de regresión: Cánceres, Sujetos-años, Veteranos, Grupo de edad).

Para analizar estos datos utilizando StatsDirect debe abrir primero el libro de trabajo de prueba utilizando la función de abrir archivo del menú archivo. A continuación, genere un conjunto de variables ficticias para representar los niveles de la variable «Grupo de edad» utilizando la función Variables ficticias del menú Datos. A continuación, seleccione Poisson en la sección Regresión y Correlación del menú Análisis. Haga clic en la opción «Recuentos de eventos y exposición (persona-tiempo), y seleccione el tipo de datos de respuesta como «Individual». Seleccione la columna «Cánceres» cuando se le pida la respuesta. A continuación, seleccione «Sujeto-años» cuando se le pida el tiempo-persona. A continuación, seleccione «Veteranos», «Grupo de edad (25-29)», «Grupo de edad (30-34)», etc. en una acción cuando se le pidan los predictores.

Para este ejemplo:

Regresión de Poisson

Desviación (cociente de probabilidad) chi-cuadrado = 2067.700372 df = 11 P < 0,0001

Intercepción b0 = -9,324832 z = -45.596773 P < 0,0001
Veteranos b1 = -0,003528 z = -0.063587 P = 0,9493
Grupo de edad (25-29) b2 = 0,679314 z = 2.921869 P = 0,0035
Grupo de edad (30-34) b3 = 1,371085 z = 6.297824 P < 0,0001
Grupo de edad (35-39) b4 = 1.939619 z = 9,14648 P < 0,0001
Grupo de edad (40-44) b5 = 2.034323 z = 9,413835 P < 0,0001
Grupo de edad (45-49) b6 = 2,726551 z = 12,269534 P < 0.0001
Grupo de edad (50-54) b7 = 3,202873 z = 14,515926 P < 0.0001
Grupo de edad (55-59) b8 = 3,716187 z = 17,064363 P < 0.0001
Grupo de edad (60-64) b9 = 4,092676 z = 18.801188 P < 0,0001
Grupo de edad (65-69) b10 = 4,23621 z = 18.892791 P < 0,0001
Grupo de edad (70+) b11 = 4,363717 z = 19.19183 P < 0,0001

log Cánceres = -9,324832 -0,003528 Veteranos +0.679314 Grupo de edad (25-29) +1.371085 Grupo de edad (30-34) +1.939619 Grupo de edad (35-39) +2.034323 Grupo de edad (40-44) +2.726551 Grupo de edad (45-49) +3.202873 Grupo de edad (50-54) +3.716187 Grupo de edad (55-59) +4.092676 Grupo de edad (60-64) +4.23621 Grupo de edad (65-69) +4.363717 Grupo de edad (70+)

Regresión de Poisson – cocientes de tasas de incidencia

Población de inferencia: todo el estudio (riesgo inicial)

Parámetro Estimación IRR 95% CI
Veteranos -0.003528 0,996479 0,89381 a 1,11094
Grupo de edad (25-29) 0,679314 1,972524 1,250616 a 3.111147
Grupo de edad (30-34) 1,371085 3,939622 2,571233 a 6,036256
Grupo de edad (35-39) 1.939619 6,956098 4,590483 a 10,540786
Grupo de edad (40-44) 2.034323 7,647073 5,006696 a 11,679905
Grupo de edad (45-49) 2.726551 15,280093 9,884869 a 23,620062
Grupo de edad (50-54) 3.202873 24,60311 15,96527 a 37,914362
Grupo de edad (55-59) 3.716187 41,107367 26,825601 a 62,992647
Grupo de edad (60-64) 4,092676 59,899957 39,096281 a 91.773558
Grupo de edad (65-69) 4,23621 69,145275 44,555675 a 107.305502
Grupo de edad (70+) 4,363717 78,54856 50,303407 a 122.653248

Regresión de Poisson – análisis del modelo

Exactitud = 1,00E-07

Log de probabilidad con todas las covariables = -66,006668

Desviación con todas las covariables = 5.217124, df = 10, rango = 12

Criterio de información de Akaike = 29.217124

Criterio de información de Schwartz = 45.400676

Desviación sin covariables = 2072.917496

Desviación (ratio de verosimilitud, G²) = 2067.700372, df = 11, P < 0,0001

Pseudo (McFadden) R-cuadrado = 0,997483

Pseudo (índice de probabilidad) R-cuadrado = 0,939986

Bondad de ajuste de Pearson = 5,086063, df = 10, P = 0.8854

Bondad de ajuste de la desviación = 5,217124, df = 10, P = 0,8762

Parámetro de escala de sobredispersión = 0.508606

G² escalado = 4065,424363, df = 11, P < 0,0001

Bondad de ajuste de Pearson escalado = 10, df = 10, P = 0.4405

Bondad de ajuste de la desviación escalada = 10,257687, df = 10, P = 0,4182

Parámetro Coeficiente Error estándar
Constante -9,324832 0.204506
Veteranos -0,003528 0,055478
Grupo de edad (25-29) 0.679314 0,232493
Grupo de edad (30-34) 1.371085 0,217708
Grupo de edad (35-39) 1,939619 0,212062
Grupo de edad (40-44) 2,034323 0.216099
Grupo de edad (45-49) 2,726551 0.222221
Grupo de edad (50-54) 3,202873 0,220645
Grupo de edad (55-59) 3.716187 0,217775
Grupo de edad (60-64) 4,092676 0.217682
Grupo de edad (65-69) 4,23621 0,224224
Grupo de edad (70+) 4.363717 0,227374
Parámetro Error estándar escalado Escala de Wald z
Constante 0.145847 -63,935674 P < 0,0001
Veteranos 0.039565 -0,089162 P = 0,929
Grupo de edad (25-29) 0.165806 4,097037 P < 0,0001
Grupo de edad (30-34) 0.155262 8,830792 P < 0,0001
Grupo de edad (35-39) 0.151235 12,825169 P < 0,0001
Grupo de edad (40-44) 0.154115 13.200054 P < 0.0001
Grupo de edad (45-49) 0.158481 17,204308 P < 0,0001
Grupo de edad (50-54) 0.157357 20,354193 P < 0,0001
Grupo de edad (55-59) 0.15531 23,927605 P < 0,0001
Grupo de edad (60-64) 0.155243 26,362975 P < 0,0001
Grupo de edad (65-69) 0.159909 26,491421 P < 0,0001
Grupo de edad (70+) 0,162155 26,910733 P < 0,0001

Deja una respuesta

Tu dirección de correo electrónico no será publicada.