Regressão de Poisson (Taxa de Incidência)

Localização de Menu: Analysis_Regression and Correlation_Poisson

Esta função encaixa num modelo de regressão de Poisson para análise multivariada dos números de eventos incomuns em estudos de coorte.

O modelo multiplicativo de regressão de Poisson é ajustado como uma regressão log-linear (i.e. um link log e uma distribuição de erros de Poisson), com um offset igual ao logaritmo natural do tempo-pessoa se o tempo-pessoa for especificado (McCullagh e Nelder, 1989; Frome, 1983; Agresti, 2002). Com o modelo multiplicativo de Poisson, os expoentes dos coeficientes são iguais à taxa de incidência (risco relativo). Esses riscos relativos de linha de base dão valores relativos a covariantes nomeados para toda a população. Você pode definir riscos relativos para uma subpopulação multiplicando o risco relativo dessa subpopulação com os riscos relativos devidos a outros agrupamentos covariados, por exemplo, o risco relativo de morrer de câncer de pulmão se você for um fumante que tenha vivido em uma área com alto teor de rádon. StatsDirect oferece riscos relativos de subpopulação para covariáveis dicotômicas.

A variável resultado/resposta é suposta vir de uma distribuição de Poisson. Note que uma distribuição Poisson é a distribuição do número de eventos em um intervalo de tempo fixo, desde que os eventos ocorram ao acaso, independentemente no tempo e a uma taxa constante. As distribuições de Poisson são usadas para modelagem de eventos por unidade de espaço e tempo, por exemplo número de partículas por centímetro quadrado.

Regessão de Poisson também pode ser usada para modelagem log-linear de dados de tabela de contingência, e para modelagem multinomial. Para as contagens da tabela de contingência você criaria variáveis r + c indicador/dummy como as covariantes, representando as r linhas e colunas c da tabela de contingência:

r1c1	r1c2	r1c3
r2c1	r2c2	r2c3
r3c1	r3c2	r3c3

Resposta	x_r1	x_r2	x_r3	x_r3	x_c1	x_c2	x_c3
r1c1	1	0	0	1	0	0	0
r1c2	1	0	0	0	1	0
r1c3	1	0	0	0	0	0	1
r2c1	0	1	0	1	1	0	0
r2c2	0	1	0	0	1	0	0
r2c3	0	1	0	0	0	1
r3c1	0	0	1	1	0	0
r3c2	0	0	1	0	1	0	0
r3c3	0	0	1	0	0	0	1

Adequação do modelo

Para avaliar a adequação do modelo de regressão de Poisson você deve primeiro olhar para a estatística descritiva básica para os dados de contagem de eventos. Se a média e a variância da contagem forem muito diferentes (equivalente em uma distribuição de Poisson) então é provável que o modelo esteja sobre-disperso.

A opção de análise do modelo dá um parâmetro de escala (sp) como medida de sobre-dispersão; isto é igual à estatística qui-quadrado de Pearson dividida pelo número de observações menos o número de parâmetros (covariates e interceptar). As variâncias dos coeficientes podem ser ajustadas pela multiplicação por sp. A bondade das estatísticas de teste de ajuste e resíduos pode ser ajustada pela divisão por sp. Usando uma abordagem de quase-probabilidade sp poderia ser integrada com a regressão, mas isto assumiria um valor fixo conhecido para sp, o que raramente é o caso. Uma melhor abordagem para modelos Poisson superdispersos é usar um modelo alternativo paramétrico, o binômio negativo.

O teste estatístico de desvio (razão de verossimilhança), G², é o resumo mais útil da adequação do modelo ajustado. Ele representa a mudança de desvio entre o modelo ajustado e o modelo com um termo constante e sem covariáveis; portanto G² não é calculado se nenhuma constante for especificada. Se este teste é significativo então os covariáveis contribuem significativamente para o modelo.

A bondade do teste de desvio do ajuste reflete o ajuste dos dados a uma distribuição de Poisson na regressão. Se este teste for significativo então um asterisco vermelho é mostrado pelo valor de P, e você deve considerar outras covariates e/ou outras distribuições de erro como binomial negativo.

StatsDirect não exclui/drop covariates da sua regressão de Poisson se eles estiverem altamente correlacionados entre si. Os modelos que não são de classificação completa (rank = número de parâmetros) são totalmente estimados na maioria das circunstâncias, mas você deve normalmente considerar combinar ou excluir variáveis, ou possivelmente excluir o termo constante. Você deve procurar estatísticas especializadas se você se encontrar nesta situação.

Validação técnica

A função de desvio é:

– onde y é o número de eventos, n é o número de observações e μ é a média de Poisson ajustada.

A função de probabilidade logarítmica é:

A regressão de máxima verosimilhança prossegue por mínimos quadrados re-ponderados iterativamente, usando a decomposição de valor singular para resolver o sistema linear em cada iteração, até que a mudança de desvio esteja dentro da precisão especificada.

O Pearson qui-quadrado residual é:

A estatística do teste de adequação do Pearson é:

O desvio residual é (Cook e Weisberg, 1982):

-onde D(observação, ajuste) é o desvio e sgn(x) é o sinal de x.

O Freeman-Tukey, variância estabilizada, residual é (Freeman e Tukey, 1950):

O residual padronizado é:

– onde h é a alavancagem (diagonal da matriz do chapéu).

Exemplo

From Armitage et al. (2001):

Test workbook (Folha de trabalho de Regressão: Cancers, Subject-years, Veterans, Age group).

Para analisar estes dados utilizando o StatsDirect deve primeiro abrir a pasta de trabalho de teste utilizando a função file open do menu file. Em seguida gere um conjunto de variáveis dummy para representar os níveis da variável “Age group” usando a função Dummy Variables do menu Data. Depois seleccione Poisson na secção Regressão e Correlação do menu Análise. Clique na opção “Counts of events and exposure (person-time), e selecione o tipo de dados de resposta como “Individual”. Selecione a coluna marcada como “Cancers” quando solicitado pela resposta. Depois seleccione “Subject-years” quando lhe for pedido o tempo-pessoa. Depois selecione “Veterans”, “Age group (25-29)” , “Age group (30-34)” etc. em uma ação quando lhe for perguntado por preditores.

Para este exemplo:

Regressão de Poisson

Deviance (likelihood ratio) qui-quadrado = 2067.700372 df = 11 P < 0.0001

Interceptar	b0 = -9.324832	z = -45.596773	P < 0,0001
Veterans	b1 = -0,003528	z = -0.063587	P = 0,9493
Grupo de idade (25-29)	b2 = 0,679314	z = 2.921869	P = 0,0035
Grupo de idade (30-34)	b3 = 1,371085	z = 6.297824	P < 0,0001
Grupo de idade (35-39)	b4 = 1.939619	z = 9,14648	P < 0,0001
Grupo de idade (40-44)	b5 = 2.034323	z = 9,413835	P < 0,0001
Grupo de idade (45-49)	b6 = 2,726551	z = 12,269534	P < 0.0001
Grupo de idade (50-54)	b7 = 3,202873	z = 14,515926	P < 0.0001
Grupo de idade (55-59)	b8 = 3,716187	z = 17,064363	P < 0.0001
Grupo de idade (60-64)	b9 = 4,092676	z = 18.801188	P < 0,0001
Grupo de idade (65-69)	b10 = 4,23621	z = 18.892791	P < 0,0001
Grupo de idade (70+)	b11 = 4,363717	z = 19.19183	P < 0,0001

log Cancers = -9,324832 -0,003528 Veteranos +0.679314 Grupo etário (25-29) +1,371085 Grupo etário (30-34) +1,939619 Grupo etário (35-39) +2,034323 Grupo etário (40-44) +2,726551 Grupo etário (45-49) +3,202873 Grupo etário (50-54) +3,716187 Grupo etário (55-59) +4,092676 Grupo etário (60-64) +4,23621 Grupo etário (65-69) +4.363717 Faixa etária (70+)

Retrocesso de Poisson – rácios de incidência

População de informação: estudo completo (risco basal)

Parâmetro	Estimativa	IRR	95% CI
Veterans	-0.003528	0,996479	0,89381 a 1,11094
Grupo de idade (25-29)	0,679314	1,972524	1,250616 a 3.111147
Grupo de idade (30-34)	1,371085	3,939622	2,571233 a 6,036256
Grupo de idade (35-39)	1.939619	6,956098	4,590483 a 10,540786
Grupo de idade (40-44)	2.034323	7,647073	5,006696 a 11,679905
Grupo de idade (45-49)	2.726551	15.280093	9.884869 a 23.620062
Grupo de idade (50-54)	3.202873	24.60311	15.96527 a 37.914362
Grupo de idade (55-59)	3.716187	41.107367	26.825601 a 62.992647
Grupo de idade (60-64)	4.092676	59.899957	39.096281 a 91.773558
Grupo de idade (65-69)	4.23621	69.145275	44.555675 a 107.305502
grupo de idade (70+)	4,363717	78,54856	50,303407 a 122.653248

Regressão de Poisson – análise do modelo

Acuracidade = 1,00E-07

Probabilidade de log com todos os covariáveis = -66,006668

Desvio com todos os covariáveis = 5.217124, df = 10, rank = 12

Critério de informação do akaike = 29.217124

Critério de informação do Schwartz = 45.400676

Desvio sem covariatos = 2072.917496

Desvio (razão de verosimilhança, G²) = 2067.700372, df = 11, P < 0,0001

Pseudo (McFadden) R-quadrado = 0,997483

Pseudo (índice de verosimilhança) R-quadrado = 0,939986

Pearson bondade de ajuste = 5,086063, df = 10, P = 0.8854

Deviance goodness of fit = 5,217124, df = 10, P = 0,8762

Parâmetro da escala de dispersão = 0.508606

Escala G² = 4065,424363, df = 11, P < 0,0001

Escala Pearson bondade de ajuste = 10, df = 10, P = 0.4405

Desvio escalonado bondade de ajuste = 10,257687, df = 10, P = 0,4182

Parâmetro	Coeficiente	Erro Padrão
Constante	-9,324832	0.204506
Veterans	-0.003528	0.055478
Grupo de idade (25-29)	0.679314	0,232493
Grupo de idade (30-34)	1.371085	0.217708
Grupo de idade (35-39)	1.939619	0.212062
Grupo de idade (40-44)	2.034323	0.216099
Grupo de idade (45-49)	2.726551	0.222221
Grupo de idade (50-54)	3.202873	0.220645
Grupo de idade (55-59)	3.716187	0.217775
Grupo de idade (60-64)	4.092676	0.217682
Grupo de idade (65-69)	4.23621	0.224224
Grupo de idade (70+)	4.363717	0,227374

Parâmetro	Erro Padrão Escalonado	Calonado Wald z
Constante	0.145847	-63.935674	P < 0.0001
Veterans	0.039565	-0,089162	P = 0,929
Grupo de idade (25-29)	0.165806	4,097037	P < 0,0001
Grupo de idade (30-34)	0.155262	8,830792	P < 0,0001
Grupo de idade (35-39)	0.151235	12.825169	P < 0.0001
Grupo de idade (40-44)	0.154115	13.200054	P < 0,0001
Grupo de idade (45-49)	0.158481	17.204308	P < 0.0001
Grupo de idade (50-54)	0.157357	20,354193	P < 0,0001
Grupo de idade (55-59)	0.15531	23,927605	P < 0,0001
Grupo de idade (60-64)	0.155243	26.362975	P < 0.0001
Grupo de idade (65-69)	0.159909	26.491421	P < 0.0001
Grupo de idade (70+)	0.162155	26.910733	P < 0.0001

Deixe uma resposta Cancelar resposta