Menuplacering: Denne funktion tilpasser en Poisson-regressionsmodel til multivariat analyse af antallet af ualmindelige hændelser i kohortestudier.
Den multiplikative Poisson-regressionsmodel tilpasses som en log-lineær regression (i.dvs. en log-forbindelse og en Poisson-fejlfordeling), med en forskydning svarende til den naturlige logaritme af person-tid, hvis der er angivet person-tid (McCullagh og Nelder, 1989; Frome, 1983; Agresti, 2002). Med den multiplikative Poisson-model er eksponenterne for koefficienterne lig med incidensraten (den relative risiko). Disse baseline relative risici giver værdier i forhold til navngivne kovariater for hele populationen. Man kan definere relative risici for en delpopulation ved at multiplicere denne delpopulations baseline relative risiko med de relative risici, der skyldes andre kovariategrupperinger, f.eks. den relative risiko for at dø af lungekræft, hvis man er ryger og har boet i et område med højt radonindhold. StatsDirect tilbyder relative risici for subpopulationer for dikotome kovariater.
Resultatet/responsvariablen antages at stamme fra en Poisson-fordeling. Bemærk, at en Poisson-fordeling er fordelingen af antallet af begivenheder i et fast tidsinterval, forudsat at begivenhederne forekommer tilfældigt, uafhængigt af hinanden i tid og med en konstant hastighed. Poisson-fordelinger anvendes til modellering af begivenheder pr. rumenhed såvel som pr. tidsenhed, f.eks. antal partikler pr. kvadratcentimeter.
Poisson-regression kan også anvendes til log-lineær modellering af contingency tabel-data og til multinomial modellering. For kontingenstabeloptællinger skal man oprette r + c indikator/dummy-variabler som kovariater, der repræsenterer r rækker og c kolonner i kontingenstabellen:
r1c1 | r1c2 | r1c3 | |
r2c1 | |||
r2c1 | r2c2 | r2c3 | |
r3c1 | r3c2 | r3c3 | r3c3 |
Respons | x_r1 | x_r2 | x_r3 | x_c1 | x_c2 | x_c3 | ||
r1c1 | 1 | 0 | 0 | 1 | 0 | 0 | ||
r1c2 | 1 | 0 | 0 | 0 | 0 | 1 | 0 | |
r1c3 | 1 | 0 | 0 | 0 | 0 | 0 | 1 | |
r2c1 | 0 | 1 | 0 | 1 | 0 | 0 | 0 | |
r2c2 | 0 | 1 | 0 | 0 | 1 | 0 | 0 | |
r2c3 | 0 | 1 | 0 | 0 | 0 | 1 | ||
r3c1 | 0 | 0 | 0 | 1 | 1 | 0 | 0 | |
r3c2 | ||||||||
r3c2 | 0 | 0 | 1 | 0 | 1 | 0 | ||
r3c3 | 0 | 0 | 0 | 1 | 0 | 0 | 0 | 1 |
Modellens tilstrækkelighed
For at vurdere Poisson-regressionsmodellens tilstrækkelighed bør man først se på de grundlæggende beskrivende statistikker for hændelsestællingsdataene. Hvis tællingsmiddelværdien og variansen er meget forskellige (svarende i en Poisson-fordeling), er modellen sandsynligvis overspredt.
Modelanalyseindstillingen giver en skalaparameter (sp) som et mål for overspredning; denne er lig med Pearson chi-square-statistikken divideret med antallet af observationer minus antallet af parametre (kovariater og intercept). Koefficienternes varians kan justeres ved at multiplicere med sp. Teststatistikken for tilpasningsevne og residualer kan justeres ved at dividere med sp. Ved hjælp af en kvasi-likelihood-tilgang kunne sp integreres med regressionen, men det ville forudsætte en kendt fast værdi for sp, hvilket sjældent er tilfældet. En bedre tilgang til overspredte Poisson-modeller er at anvende en parametrisk alternativ model, den negative binomialmodel.
Den afvigende (likelihood ratio) teststatistik, G², er den mest nyttige sammenfatning af den tilpassede models tilstrækkelighed. Den repræsenterer ændringen i afvigelse mellem den tilpassede model og modellen med et konstant udtryk og ingen kovariater; derfor beregnes G² ikke, hvis der ikke er angivet nogen konstant. Hvis denne test er signifikant, bidrager kovariaterne væsentligt til modellen.
Afvigelsestesten for tilpasningens godhed afspejler dataenes tilpasning til en Poisson-fordeling i regressionen. Hvis denne test er signifikant, vises en rød stjerne ved P-værdien, og du bør overveje andre kovariater og/eller andre fejlfordelinger som f.eks. negativ binomial.
StatsDirect udelukker/afskaffer ikke kovariater fra Poisson-regressionen, hvis de er stærkt korrelerede med hinanden. Modeller, der ikke er af fuld (rang = antal parametre) rang, estimeres fuldt ud i de fleste tilfælde, men man bør normalt overveje at kombinere eller udelukke variabler eller eventuelt udelukke det konstante udtryk. Du bør søge ekspertstatistik, hvis du befinder dig i denne situation.
Teknisk validering
Den afvigende funktion er:
– hvor y er antallet af hændelser, n er antallet af observationer, og μ er den tilpassede Poisson-middelværdi.
Log-likelihood-funktionen er:
Den maksimale sandsynlighedsregression foregår ved iterativt genvægtede mindste kvadrater, idet der anvendes singulærværdi-dekomposition til at løse det lineære system ved hver iteration, indtil ændringen i afvigelsen ligger inden for den angivne nøjagtighed.
Pearson chi-square residual er:
Pearson goodness of fit teststatistik er:
Den resterende afvigelse er (Cook og Weisberg, 1982):
– hvor D(observation, fit) er afvigelsen og sgn(x) er fortegnet for x.
Den Freeman-Tukey, variansstabiliserede, residual er (Freeman og Tukey, 1950):
Den standardiserede residual er:
– hvor h er løftestangseffekten (diagonalen i Hat-matrixen).
Eksempel
Fra Armitage et al. (2001):
Testarbejdsmappe (regressionsarbejdsark: Cancers, Subject-years, Veterans, Age group).
For at analysere disse data ved hjælp af StatsDirect skal du først åbne testarbejdsmappen ved hjælp af filen åben-funktionen i menuen Filer. Derefter skal du generere et sæt dummy-variabler til at repræsentere niveauerne for variablen “Age group” ved hjælp af funktionen Dummy Variables i menuen Data. Vælg derefter Poisson i afsnittet Regression og korrelation i menuen Analyse. Klik på indstillingen “Count of events and exposure (person-time)”, og vælg svardatatype som “Individual”. Vælg kolonnen “Cancers”, når du bliver bedt om at svare. Vælg derefter “Subject-years”, når du bliver bedt om at angive person-tid. Vælg derefter “Veterans”, “Age group (25-29)” , “Age group (30-34)” osv. i én handling, når du bliver bedt om at angive prædiktorer.
For dette eksempel:
Poisson-regression
Deviance (likelihood ratio) chi-square = 2067.700372 df = 11 P < 0,0001
Intercept | b0 = -9,324832 | z = -45.596773 | P < 0.0001 |
Veteraner | b1 = -0.003528 | z = -0.063587 | P = 0,9493 |
Aldersgruppe (25-29) | b2 = 0,679314 | z = 2.921869 | P = 0,0035 |
Aldersgruppe (30-34) | b3 = 1,371085 | z = 6.297824 | P < 0,0001 |
Aldersgruppe (35-39) | b4 = 1.939619 | z = 9.14648 | P < 0.0001 |
Aldersgruppe (40-44) | b5 = 2.034323 | z = 9.413835 | P < 0.0001 |
Aldersgruppe (45-49) | b6 = 2.726551 | z = 12.269534 | P < 0.0001 |
Aldersgruppe (50-54) | b7 = 3.202873 | z = 14.515926 | P < 0.0001 |
Aldersgruppe (55-59) | b8 = 3.716187 | z = 17.064363 | P < 0.0001 |
Aldersgruppe (60-64) | b9 = 4.092676 | z = 18.801188 | P < 0,0001 |
Aldersgruppe (65-69) | b10 = 4,23621 | z = 18.892791 | P < 0,0001 |
Aldersgruppe (70+) | b11 = 4,363717 | z = 19.19183 | P < 0.0001 |
log Cancere = -9.324832 -0.003528 Veteraner +0.679314 Aldersgruppe (25-29) +1.371085 Aldersgruppe (30-34) +1.939619 Aldersgruppe (35-39) +2.034323 Aldersgruppe (40-44) +2.726551 Aldersgruppe (45-49) +3.202873 Aldersgruppe (50-54) +3.716187 Aldersgruppe (55-59) +4.092676 Aldersgruppe (60-64) +4.23621 Aldersgruppe (65-69) +4.363717 Aldersgruppe (70+)
Poissonregression – incidensprocenter
Inferenspopulation: Hele undersøgelsen (basisrisiko)
Parameter | Stimat | IRR | 95% CI | |
Veteraner | -0.003528 | 0.996479 | 0.89381 til 1.11094 | |
Aldersgruppe (25-29) | 0.679314 | 1.972524 | 1.250616 til 3.111147 | |
Aldersgruppe (30-34) | 1.371085 | 3.939622 | 2.571233 til 6.036256 | |
Aldersgruppe (35-39) | 1.939619 | 6.956098 | 4.590483 til 10.540786 | |
Aldersgruppe (40-44) | 2.034323 | 7.647073 | 5.006696 til 11.679905 | |
Aldersgruppe (45-49) | 2.726551 | 15.280093 | 9.884869 til 23.620062 | |
Aldersgruppe (50-54) | 3.202873 | 24.60311 | 15.96527 til 37.914362 | |
Aldersgruppe (55-59) | 3.716187 | 41.107367 | 26.825601 til 62.992647 | |
Aldersgruppe (60-64) | 4.092676 | 59.899957 | 39.096281 til 91.773558 | |
Aldersgruppe (65-69) | 4.23621 | 69.145275 | 44.555675 til 107.305502 | |
Aldersgruppe (70+) | 4.363717 | 78.54856 | 50.303407 til 122.653248 |
Poissonregression – modelanalyse
Nøjagtighed = 1.00E-07
Log likelihood med alle kovariater = -66.006668
Afvigelse med alle kovariater = 5.217124, df = 10, rang = 12
Akaike informationskriterium = 29.217124
Schwartz informationskriterium = 45.400676
Afvigelse uden kovariater = 2072.917496
Afvigelse (sandsynlighedskvotient, G²) = 2067.700372, df = 11, P < 0,0001
Pseudo (McFadden) R-square = 0,997483
Pseudo (likelihood ratio index) R-square = 0,939986
Pearson goodness of fit = 5,086063, df = 10, P = 0.8854
Deviance goodness of fit = 5.217124, df = 10, P = 0.8762
Over-dispersion scale parameter = 0.508606
Skaleret G² = 4065,424363, df = 11, P < 0,0001
Skaleret Pearson-goodness of fit = 10, df = 10, P = 0.4405
Scaled Deviance goodness of fit = 10.257687, df = 10, P = 0.4182
Parameter | Koefficient | Standardfejl |
Konstant | -9.324832 | 0.204506 |
Veteraner | -0.003528 | 0.055478 |
Aldersgruppe (25-29) | 0.679314 | 0.232493 |
Aldersgruppe (30-34) | 1.371085 | 0.217708 |
Aldersgruppe (35-39) | 1.939619 | 0.212062 |
Aldersgruppe (40-44) | 2.034323 | 0.216099 |
Aldersgruppe (45-49) | 2.726551 | 0.222221 |
Aldersgruppe (50-54) | 3.202873 | 0.220645 |
Aldersgruppe (55-59) | 3.716187 | 0.217775 |
Aldersgruppe (60-64) | 4.092676 | 0.217682 |
Aldersgruppe (65-69) | 4.23621 | 0.224224 |
Aldersgruppe (70+) | 4.363717 | 0.227374 |
Parameter | Skaleret standardfejl | Skaleret Wald z | ||
Konstant | 0.145847 | -63.935674 | P < 0.0001 | |
Veteraner | 0.039565 | -0.089162 | P = 0.929 | |
Aldersgruppe (25-29) | 0.165806 | 4.097037 | P < 0.0001 | |
Aldersgruppe (30-34) | 0.155262 | 8.830792 | P < 0.0001 | |
Aldersgruppe (35-39) | 0.151235 | 12.825169 | P < 0.0001 | |
Aldersgruppe (40-44) | 0.154115 | 13.200054 | P < 0.0001 | |
Aldersgruppe (45-49) | 0.158481 | 17.204308 | P < 0.0001 | |
Aldersgruppe (50-54) | 0.157357 | 20.354193 | P < 0.0001 | |
Aldersgruppe (55-59) | 0.15531 | 23.927605 | P < 0.0001 | |
Aldersgruppe (60-64) | 0.155243 | 26.362975 | P < 0.0001 | |
Aldersgruppe (65-69) | 0.159909 | 26.491421 | P < 0.0001 | |
Aldersgruppe (70+) | 0.162155 | 26.910733 | P < 0.0001 |