Poisson-regression

Menuplacering: Denne funktion tilpasser en Poisson-regressionsmodel til multivariat analyse af antallet af ualmindelige hændelser i kohortestudier.

Den multiplikative Poisson-regressionsmodel tilpasses som en log-lineær regression (i.dvs. en log-forbindelse og en Poisson-fejlfordeling), med en forskydning svarende til den naturlige logaritme af person-tid, hvis der er angivet person-tid (McCullagh og Nelder, 1989; Frome, 1983; Agresti, 2002). Med den multiplikative Poisson-model er eksponenterne for koefficienterne lig med incidensraten (den relative risiko). Disse baseline relative risici giver værdier i forhold til navngivne kovariater for hele populationen. Man kan definere relative risici for en delpopulation ved at multiplicere denne delpopulations baseline relative risiko med de relative risici, der skyldes andre kovariategrupperinger, f.eks. den relative risiko for at dø af lungekræft, hvis man er ryger og har boet i et område med højt radonindhold. StatsDirect tilbyder relative risici for subpopulationer for dikotome kovariater.

Resultatet/responsvariablen antages at stamme fra en Poisson-fordeling. Bemærk, at en Poisson-fordeling er fordelingen af antallet af begivenheder i et fast tidsinterval, forudsat at begivenhederne forekommer tilfældigt, uafhængigt af hinanden i tid og med en konstant hastighed. Poisson-fordelinger anvendes til modellering af begivenheder pr. rumenhed såvel som pr. tidsenhed, f.eks. antal partikler pr. kvadratcentimeter.

Poisson-regression kan også anvendes til log-lineær modellering af contingency tabel-data og til multinomial modellering. For kontingenstabeloptællinger skal man oprette r + c indikator/dummy-variabler som kovariater, der repræsenterer r rækker og c kolonner i kontingenstabellen:

r1c1 r1c2 r1c3
r2c1
r2c1 r2c2 r2c3
r3c1 r3c2 r3c3 r3c3
Respons x_r1 x_r2 x_r3 x_c1 x_c2 x_c3
r1c1 1 0 0 1 0 0
r1c2 1 0 0 0 0 1 0
r1c3 1 0 0 0 0 0 1
r2c1 0 1 0 1 0 0 0
r2c2 0 1 0 0 1 0 0
r2c3 0 1 0 0 0 1
r3c1 0 0 0 1 1 0 0
r3c2
r3c2 0 0 1 0 1 0
r3c3 0 0 0 1 0 0 0 1

Modellens tilstrækkelighed

For at vurdere Poisson-regressionsmodellens tilstrækkelighed bør man først se på de grundlæggende beskrivende statistikker for hændelsestællingsdataene. Hvis tællingsmiddelværdien og variansen er meget forskellige (svarende i en Poisson-fordeling), er modellen sandsynligvis overspredt.

Modelanalyseindstillingen giver en skalaparameter (sp) som et mål for overspredning; denne er lig med Pearson chi-square-statistikken divideret med antallet af observationer minus antallet af parametre (kovariater og intercept). Koefficienternes varians kan justeres ved at multiplicere med sp. Teststatistikken for tilpasningsevne og residualer kan justeres ved at dividere med sp. Ved hjælp af en kvasi-likelihood-tilgang kunne sp integreres med regressionen, men det ville forudsætte en kendt fast værdi for sp, hvilket sjældent er tilfældet. En bedre tilgang til overspredte Poisson-modeller er at anvende en parametrisk alternativ model, den negative binomialmodel.

Den afvigende (likelihood ratio) teststatistik, G², er den mest nyttige sammenfatning af den tilpassede models tilstrækkelighed. Den repræsenterer ændringen i afvigelse mellem den tilpassede model og modellen med et konstant udtryk og ingen kovariater; derfor beregnes G² ikke, hvis der ikke er angivet nogen konstant. Hvis denne test er signifikant, bidrager kovariaterne væsentligt til modellen.

Afvigelsestesten for tilpasningens godhed afspejler dataenes tilpasning til en Poisson-fordeling i regressionen. Hvis denne test er signifikant, vises en rød stjerne ved P-værdien, og du bør overveje andre kovariater og/eller andre fejlfordelinger som f.eks. negativ binomial.

StatsDirect udelukker/afskaffer ikke kovariater fra Poisson-regressionen, hvis de er stærkt korrelerede med hinanden. Modeller, der ikke er af fuld (rang = antal parametre) rang, estimeres fuldt ud i de fleste tilfælde, men man bør normalt overveje at kombinere eller udelukke variabler eller eventuelt udelukke det konstante udtryk. Du bør søge ekspertstatistik, hvis du befinder dig i denne situation.

Teknisk validering

Den afvigende funktion er:

– hvor y er antallet af hændelser, n er antallet af observationer, og μ er den tilpassede Poisson-middelværdi.

Log-likelihood-funktionen er:

Den maksimale sandsynlighedsregression foregår ved iterativt genvægtede mindste kvadrater, idet der anvendes singulærværdi-dekomposition til at løse det lineære system ved hver iteration, indtil ændringen i afvigelsen ligger inden for den angivne nøjagtighed.

Pearson chi-square residual er:

Pearson goodness of fit teststatistik er:

Den resterende afvigelse er (Cook og Weisberg, 1982):

– hvor D(observation, fit) er afvigelsen og sgn(x) er fortegnet for x.

Den Freeman-Tukey, variansstabiliserede, residual er (Freeman og Tukey, 1950):

Den standardiserede residual er:

– hvor h er løftestangseffekten (diagonalen i Hat-matrixen).

Eksempel

Fra Armitage et al. (2001):

Testarbejdsmappe (regressionsarbejdsark: Cancers, Subject-years, Veterans, Age group).

For at analysere disse data ved hjælp af StatsDirect skal du først åbne testarbejdsmappen ved hjælp af filen åben-funktionen i menuen Filer. Derefter skal du generere et sæt dummy-variabler til at repræsentere niveauerne for variablen “Age group” ved hjælp af funktionen Dummy Variables i menuen Data. Vælg derefter Poisson i afsnittet Regression og korrelation i menuen Analyse. Klik på indstillingen “Count of events and exposure (person-time)”, og vælg svardatatype som “Individual”. Vælg kolonnen “Cancers”, når du bliver bedt om at svare. Vælg derefter “Subject-years”, når du bliver bedt om at angive person-tid. Vælg derefter “Veterans”, “Age group (25-29)” , “Age group (30-34)” osv. i én handling, når du bliver bedt om at angive prædiktorer.

For dette eksempel:

Poisson-regression

Deviance (likelihood ratio) chi-square = 2067.700372 df = 11 P < 0,0001

Intercept b0 = -9,324832 z = -45.596773 P < 0.0001
Veteraner b1 = -0.003528 z = -0.063587 P = 0,9493
Aldersgruppe (25-29) b2 = 0,679314 z = 2.921869 P = 0,0035
Aldersgruppe (30-34) b3 = 1,371085 z = 6.297824 P < 0,0001
Aldersgruppe (35-39) b4 = 1.939619 z = 9.14648 P < 0.0001
Aldersgruppe (40-44) b5 = 2.034323 z = 9.413835 P < 0.0001
Aldersgruppe (45-49) b6 = 2.726551 z = 12.269534 P < 0.0001
Aldersgruppe (50-54) b7 = 3.202873 z = 14.515926 P < 0.0001
Aldersgruppe (55-59) b8 = 3.716187 z = 17.064363 P < 0.0001
Aldersgruppe (60-64) b9 = 4.092676 z = 18.801188 P < 0,0001
Aldersgruppe (65-69) b10 = 4,23621 z = 18.892791 P < 0,0001
Aldersgruppe (70+) b11 = 4,363717 z = 19.19183 P < 0.0001

log Cancere = -9.324832 -0.003528 Veteraner +0.679314 Aldersgruppe (25-29) +1.371085 Aldersgruppe (30-34) +1.939619 Aldersgruppe (35-39) +2.034323 Aldersgruppe (40-44) +2.726551 Aldersgruppe (45-49) +3.202873 Aldersgruppe (50-54) +3.716187 Aldersgruppe (55-59) +4.092676 Aldersgruppe (60-64) +4.23621 Aldersgruppe (65-69) +4.363717 Aldersgruppe (70+)

Poissonregression – incidensprocenter

Inferenspopulation: Hele undersøgelsen (basisrisiko)

Parameter Stimat IRR 95% CI
Veteraner -0.003528 0.996479 0.89381 til 1.11094
Aldersgruppe (25-29) 0.679314 1.972524 1.250616 til 3.111147
Aldersgruppe (30-34) 1.371085 3.939622 2.571233 til 6.036256
Aldersgruppe (35-39) 1.939619 6.956098 4.590483 til 10.540786
Aldersgruppe (40-44) 2.034323 7.647073 5.006696 til 11.679905
Aldersgruppe (45-49) 2.726551 15.280093 9.884869 til 23.620062
Aldersgruppe (50-54) 3.202873 24.60311 15.96527 til 37.914362
Aldersgruppe (55-59) 3.716187 41.107367 26.825601 til 62.992647
Aldersgruppe (60-64) 4.092676 59.899957 39.096281 til 91.773558
Aldersgruppe (65-69) 4.23621 69.145275 44.555675 til 107.305502
Aldersgruppe (70+) 4.363717 78.54856 50.303407 til 122.653248

Poissonregression – modelanalyse

Nøjagtighed = 1.00E-07

Log likelihood med alle kovariater = -66.006668

Afvigelse med alle kovariater = 5.217124, df = 10, rang = 12

Akaike informationskriterium = 29.217124

Schwartz informationskriterium = 45.400676

Afvigelse uden kovariater = 2072.917496

Afvigelse (sandsynlighedskvotient, G²) = 2067.700372, df = 11, P < 0,0001

Pseudo (McFadden) R-square = 0,997483

Pseudo (likelihood ratio index) R-square = 0,939986

Pearson goodness of fit = 5,086063, df = 10, P = 0.8854

Deviance goodness of fit = 5.217124, df = 10, P = 0.8762

Over-dispersion scale parameter = 0.508606

Skaleret G² = 4065,424363, df = 11, P < 0,0001

Skaleret Pearson-goodness of fit = 10, df = 10, P = 0.4405

Scaled Deviance goodness of fit = 10.257687, df = 10, P = 0.4182

Parameter Koefficient Standardfejl
Konstant -9.324832 0.204506
Veteraner -0.003528 0.055478
Aldersgruppe (25-29) 0.679314 0.232493
Aldersgruppe (30-34) 1.371085 0.217708
Aldersgruppe (35-39) 1.939619 0.212062
Aldersgruppe (40-44) 2.034323 0.216099
Aldersgruppe (45-49) 2.726551 0.222221
Aldersgruppe (50-54) 3.202873 0.220645
Aldersgruppe (55-59) 3.716187 0.217775
Aldersgruppe (60-64) 4.092676 0.217682
Aldersgruppe (65-69) 4.23621 0.224224
Aldersgruppe (70+) 4.363717 0.227374
Parameter Skaleret standardfejl Skaleret Wald z
Konstant 0.145847 -63.935674 P < 0.0001
Veteraner 0.039565 -0.089162 P = 0.929
Aldersgruppe (25-29) 0.165806 4.097037 P < 0.0001
Aldersgruppe (30-34) 0.155262 8.830792 P < 0.0001
Aldersgruppe (35-39) 0.151235 12.825169 P < 0.0001
Aldersgruppe (40-44) 0.154115 13.200054 P < 0.0001
Aldersgruppe (45-49) 0.158481 17.204308 P < 0.0001
Aldersgruppe (50-54) 0.157357 20.354193 P < 0.0001
Aldersgruppe (55-59) 0.15531 23.927605 P < 0.0001
Aldersgruppe (60-64) 0.155243 26.362975 P < 0.0001
Aldersgruppe (65-69) 0.159909 26.491421 P < 0.0001
Aldersgruppe (70+) 0.162155 26.910733 P < 0.0001

Skriv et svar

Din e-mailadresse vil ikke blive publiceret.