Localização de Menu: Analysis_Regression and Correlation_Poisson
Esta função encaixa num modelo de regressão de Poisson para análise multivariada dos números de eventos incomuns em estudos de coorte.
O modelo multiplicativo de regressão de Poisson é ajustado como uma regressão log-linear (i.e. um link log e uma distribuição de erros de Poisson), com um offset igual ao logaritmo natural do tempo-pessoa se o tempo-pessoa for especificado (McCullagh e Nelder, 1989; Frome, 1983; Agresti, 2002). Com o modelo multiplicativo de Poisson, os expoentes dos coeficientes são iguais à taxa de incidência (risco relativo). Esses riscos relativos de linha de base dão valores relativos a covariantes nomeados para toda a população. Você pode definir riscos relativos para uma subpopulação multiplicando o risco relativo dessa subpopulação com os riscos relativos devidos a outros agrupamentos covariados, por exemplo, o risco relativo de morrer de câncer de pulmão se você for um fumante que tenha vivido em uma área com alto teor de rádon. StatsDirect oferece riscos relativos de subpopulação para covariáveis dicotômicas.
A variável resultado/resposta é suposta vir de uma distribuição de Poisson. Note que uma distribuição Poisson é a distribuição do número de eventos em um intervalo de tempo fixo, desde que os eventos ocorram ao acaso, independentemente no tempo e a uma taxa constante. As distribuições de Poisson são usadas para modelagem de eventos por unidade de espaço e tempo, por exemplo número de partículas por centímetro quadrado.
Regessão de Poisson também pode ser usada para modelagem log-linear de dados de tabela de contingência, e para modelagem multinomial. Para as contagens da tabela de contingência você criaria variáveis r + c indicador/dummy como as covariantes, representando as r linhas e colunas c da tabela de contingência:
r1c1 | r1c2 | r1c3 |
r2c1 | r2c2 | r2c3 |
r3c1 | r3c2 | r3c3 |
Resposta | x_r1 | x_r2 | x_r3 | x_r3 | x_c1 | x_c2 | x_c3 |
r1c1 | 1 | 0 | 0 | 1 | 0 | 0 | 0 |
r1c2 | 1 | 0 | 0 | 0 | 1 | 0 | |
r1c3 | 1 | 0 | 0 | 0 | 0 | 0 | 1 |
r2c1 | 0 | 1 | 0 | 1 | 1 | 0 | 0 |
r2c2 | 0 | 1 | 0 | 0 | 1 | 0 | 0 |
r2c3 | 0 | 1 | 0 | 0 | 0 | 1 | |
r3c1 | 0 | 0 | 1 | 1 | 0 | 0 | |
r3c2 | 0 | 0 | 1 | 0 | 1 | 0 | 0 |
r3c3 | 0 | 0 | 1 | 0 | 0 | 0 | 1 |
Adequação do modelo
Para avaliar a adequação do modelo de regressão de Poisson você deve primeiro olhar para a estatística descritiva básica para os dados de contagem de eventos. Se a média e a variância da contagem forem muito diferentes (equivalente em uma distribuição de Poisson) então é provável que o modelo esteja sobre-disperso.
A opção de análise do modelo dá um parâmetro de escala (sp) como medida de sobre-dispersão; isto é igual à estatística qui-quadrado de Pearson dividida pelo número de observações menos o número de parâmetros (covariates e interceptar). As variâncias dos coeficientes podem ser ajustadas pela multiplicação por sp. A bondade das estatísticas de teste de ajuste e resíduos pode ser ajustada pela divisão por sp. Usando uma abordagem de quase-probabilidade sp poderia ser integrada com a regressão, mas isto assumiria um valor fixo conhecido para sp, o que raramente é o caso. Uma melhor abordagem para modelos Poisson superdispersos é usar um modelo alternativo paramétrico, o binômio negativo.
O teste estatístico de desvio (razão de verossimilhança), G², é o resumo mais útil da adequação do modelo ajustado. Ele representa a mudança de desvio entre o modelo ajustado e o modelo com um termo constante e sem covariáveis; portanto G² não é calculado se nenhuma constante for especificada. Se este teste é significativo então os covariáveis contribuem significativamente para o modelo.
A bondade do teste de desvio do ajuste reflete o ajuste dos dados a uma distribuição de Poisson na regressão. Se este teste for significativo então um asterisco vermelho é mostrado pelo valor de P, e você deve considerar outras covariates e/ou outras distribuições de erro como binomial negativo.
StatsDirect não exclui/drop covariates da sua regressão de Poisson se eles estiverem altamente correlacionados entre si. Os modelos que não são de classificação completa (rank = número de parâmetros) são totalmente estimados na maioria das circunstâncias, mas você deve normalmente considerar combinar ou excluir variáveis, ou possivelmente excluir o termo constante. Você deve procurar estatísticas especializadas se você se encontrar nesta situação.
Validação técnica
A função de desvio é:
– onde y é o número de eventos, n é o número de observações e μ é a média de Poisson ajustada.
A função de probabilidade logarítmica é:
A regressão de máxima verosimilhança prossegue por mínimos quadrados re-ponderados iterativamente, usando a decomposição de valor singular para resolver o sistema linear em cada iteração, até que a mudança de desvio esteja dentro da precisão especificada.
O Pearson qui-quadrado residual é:
A estatística do teste de adequação do Pearson é:
O desvio residual é (Cook e Weisberg, 1982):
-onde D(observação, ajuste) é o desvio e sgn(x) é o sinal de x.
O Freeman-Tukey, variância estabilizada, residual é (Freeman e Tukey, 1950):
O residual padronizado é:
– onde h é a alavancagem (diagonal da matriz do chapéu).
Exemplo
From Armitage et al. (2001):
Test workbook (Folha de trabalho de Regressão: Cancers, Subject-years, Veterans, Age group).
Para analisar estes dados utilizando o StatsDirect deve primeiro abrir a pasta de trabalho de teste utilizando a função file open do menu file. Em seguida gere um conjunto de variáveis dummy para representar os níveis da variável “Age group” usando a função Dummy Variables do menu Data. Depois seleccione Poisson na secção Regressão e Correlação do menu Análise. Clique na opção “Counts of events and exposure (person-time), e selecione o tipo de dados de resposta como “Individual”. Selecione a coluna marcada como “Cancers” quando solicitado pela resposta. Depois seleccione “Subject-years” quando lhe for pedido o tempo-pessoa. Depois selecione “Veterans”, “Age group (25-29)” , “Age group (30-34)” etc. em uma ação quando lhe for perguntado por preditores.
Para este exemplo:
Regressão de Poisson
Deviance (likelihood ratio) qui-quadrado = 2067.700372 df = 11 P < 0.0001
Interceptar | b0 = -9.324832 | z = -45.596773 | P < 0,0001 |
Veterans | b1 = -0,003528 | z = -0.063587 | P = 0,9493 |
Grupo de idade (25-29) | b2 = 0,679314 | z = 2.921869 | P = 0,0035 |
Grupo de idade (30-34) | b3 = 1,371085 | z = 6.297824 | P < 0,0001 |
Grupo de idade (35-39) | b4 = 1.939619 | z = 9,14648 | P < 0,0001 |
Grupo de idade (40-44) | b5 = 2.034323 | z = 9,413835 | P < 0,0001 |
Grupo de idade (45-49) | b6 = 2,726551 | z = 12,269534 | P < 0.0001 |
Grupo de idade (50-54) | b7 = 3,202873 | z = 14,515926 | P < 0.0001 |
Grupo de idade (55-59) | b8 = 3,716187 | z = 17,064363 | P < 0.0001 |
Grupo de idade (60-64) | b9 = 4,092676 | z = 18.801188 | P < 0,0001 |
Grupo de idade (65-69) | b10 = 4,23621 | z = 18.892791 | P < 0,0001 |
Grupo de idade (70+) | b11 = 4,363717 | z = 19.19183 | P < 0,0001 |
log Cancers = -9,324832 -0,003528 Veteranos +0.679314 Grupo etário (25-29) +1,371085 Grupo etário (30-34) +1,939619 Grupo etário (35-39) +2,034323 Grupo etário (40-44) +2,726551 Grupo etário (45-49) +3,202873 Grupo etário (50-54) +3,716187 Grupo etário (55-59) +4,092676 Grupo etário (60-64) +4,23621 Grupo etário (65-69) +4.363717 Faixa etária (70+)
Retrocesso de Poisson – rácios de incidência
População de informação: estudo completo (risco basal)
Parâmetro | Estimativa | IRR | 95% CI |
Veterans | -0.003528 | 0,996479 | 0,89381 a 1,11094 |
Grupo de idade (25-29) | 0,679314 | 1,972524 | 1,250616 a 3.111147 |
Grupo de idade (30-34) | 1,371085 | 3,939622 | 2,571233 a 6,036256 |
Grupo de idade (35-39) | 1.939619 | 6,956098 | 4,590483 a 10,540786 |
Grupo de idade (40-44) | 2.034323 | 7,647073 | 5,006696 a 11,679905 |
Grupo de idade (45-49) | 2.726551 | 15.280093 | 9.884869 a 23.620062 |
Grupo de idade (50-54) | 3.202873 | 24.60311 | 15.96527 a 37.914362 |
Grupo de idade (55-59) | 3.716187 | 41.107367 | 26.825601 a 62.992647 |
Grupo de idade (60-64) | 4.092676 | 59.899957 | 39.096281 a 91.773558 |
Grupo de idade (65-69) | 4.23621 | 69.145275 | 44.555675 a 107.305502 |
grupo de idade (70+) | 4,363717 | 78,54856 | 50,303407 a 122.653248 |
Regressão de Poisson – análise do modelo
Acuracidade = 1,00E-07
Probabilidade de log com todos os covariáveis = -66,006668
Desvio com todos os covariáveis = 5.217124, df = 10, rank = 12
Critério de informação do akaike = 29.217124
Critério de informação do Schwartz = 45.400676
Desvio sem covariatos = 2072.917496
Desvio (razão de verosimilhança, G²) = 2067.700372, df = 11, P < 0,0001
Pseudo (McFadden) R-quadrado = 0,997483
Pseudo (índice de verosimilhança) R-quadrado = 0,939986
Pearson bondade de ajuste = 5,086063, df = 10, P = 0.8854
Deviance goodness of fit = 5,217124, df = 10, P = 0,8762
Parâmetro da escala de dispersão = 0.508606
Escala G² = 4065,424363, df = 11, P < 0,0001
Escala Pearson bondade de ajuste = 10, df = 10, P = 0.4405
Desvio escalonado bondade de ajuste = 10,257687, df = 10, P = 0,4182
Parâmetro | Coeficiente | Erro Padrão |
Constante | -9,324832 | 0.204506 |
Veterans | -0.003528 | 0.055478 |
Grupo de idade (25-29) | 0.679314 | 0,232493 |
Grupo de idade (30-34) | 1.371085 | 0.217708 |
Grupo de idade (35-39) | 1.939619 | 0.212062 |
Grupo de idade (40-44) | 2.034323 | 0.216099 |
Grupo de idade (45-49) | 2.726551 | 0.222221 |
Grupo de idade (50-54) | 3.202873 | 0.220645 |
Grupo de idade (55-59) | 3.716187 | 0.217775 |
Grupo de idade (60-64) | 4.092676 | 0.217682 |
Grupo de idade (65-69) | 4.23621 | 0.224224 |
Grupo de idade (70+) | 4.363717 | 0,227374 |
Parâmetro | Erro Padrão Escalonado | Calonado Wald z | |
Constante | 0.145847 | -63.935674 | P < 0.0001 |
Veterans | 0.039565 | -0,089162 | P = 0,929 |
Grupo de idade (25-29) | 0.165806 | 4,097037 | P < 0,0001 |
Grupo de idade (30-34) | 0.155262 | 8,830792 | P < 0,0001 |
Grupo de idade (35-39) | 0.151235 | 12.825169 | P < 0.0001 |
Grupo de idade (40-44) | 0.154115 | 13.200054 | P < 0,0001 |
Grupo de idade (45-49) | 0.158481 | 17.204308 | P < 0.0001 |
Grupo de idade (50-54) | 0.157357 | 20,354193 | P < 0,0001 |
Grupo de idade (55-59) | 0.15531 | 23,927605 | P < 0,0001 |
Grupo de idade (60-64) | 0.155243 | 26.362975 | P < 0.0001 |
Grupo de idade (65-69) | 0.159909 | 26.491421 | P < 0.0001 |
Grupo de idade (70+) | 0.162155 | 26.910733 | P < 0.0001 |