Poissonregression

Menyplacering: Denna funktion anpassar en Poisson-regressionsmodell för multivariat analys av antalet ovanliga händelser i kohortstudier.

Den multiplikativa Poisson-regressionsmodellen anpassas som en loglinjär regression (i.d.v.s. en logaritmisk länk och en Poissonfelfördelning), med en förskjutning som är lika med den naturliga logaritmen av persontid om persontid anges (McCullagh och Nelder, 1989; Frome, 1983; Agresti, 2002). Med den multiplikativa Poissonmodellen är koefficienternas exponenter lika med incidenskvoten (relativ risk). Dessa relativa risker i utgångsläget ger värden i förhållande till namngivna kovariater för hela populationen. Du kan definiera relativa risker för en delpopulation genom att multiplicera den delpopulationens baslinje-relativa risk med de relativa risker som beror på andra grupperingar av kovarianter, t.ex. den relativa risken att dö i lungcancer om du är rökare och har bott i ett område med hög radonhalt. StatsDirect erbjuder relativa risker för delpopulationer för dikotoma kovarianter.

Resultatet/responsvariabeln antas komma från en Poisson-fördelning. Observera att en Poissonfördelning är fördelningen av antalet händelser i ett fast tidsintervall, förutsatt att händelserna inträffar slumpmässigt, oberoende av varandra i tiden och med en konstant hastighet. Poissonfördelningar används för att modellera händelser per rumsenhet såväl som per tidsenhet, t.ex. antal partiklar per kvadratcentimeter.

Poissonregression kan också användas för loglinjär modellering av data från contingencytabeller och för multinomial modellering. För kontingenstabellräkningar skulle du skapa r + c indikator-/dummyvariabler som kovariater, som representerar r rader och c kolumner i kontingenstabellen:

r1c1 r1c2 r1c3
r2c1
r2c1 r2c2 r2c3
r3c1 r3c2 r3c3 r3c3

.

>.

Svar x_r1 x_r2 x_r3 x_c1 x_c2 x_c3
r1c1 1 0 0 1 0 0
r1c2 1 0 0 0 0 1 0
r1c3 1 0 0 0 0 0 1
r2c1 0 1 0 1 0 0 0
r2c2 0 1 0 0 1 0
r2c3 0 1 1 0 0 0 1
r3c1 0 0 0 1 1 0 0
r3c2 0 0 1 0 1 0
r3c3 0 0 0 1 0 0 0 1

Modellens lämplighet

För att bedöma om Poisson-regressionsmodellen är adekvat bör man först titta på den grundläggande deskriptiva statistiken för uppgifterna om antalet händelser. Om medelvärdet och variansen för antalet är mycket olika (motsvarande i en Poisson-fördelning) är det troligt att modellen är överspridd.

Modellanalysalternativet ger en skalparameter (sp) som ett mått på överspridning; denna är lika med Pearsons chi-square-statistik dividerad med antalet observationer minus antalet parametrar (kovariater och intercept). Koefficienternas varianser kan justeras genom att multipliceras med sp. Teststatistiken för anpassningsbarhet och residualerna kan justeras genom att divideras med sp. Med hjälp av en kvasi-likelihood-metod skulle sp kunna integreras med regressionen, men detta skulle förutsätta ett känt fast värde för sp, vilket sällan är fallet. Ett bättre tillvägagångssätt för överspridda Poisson-modeller är att använda en parametrisk alternativ modell, den negativa binomialmodellen.

Den statistiska teststatistiken för avvikelse (likelihood ratio), G², är den mest användbara sammanfattningen av den anpassade modellens lämplighet. Den representerar förändringen i avvikelse mellan den anpassade modellen och modellen med en konstant term och inga kovariater; därför beräknas inte G² om ingen konstant anges. Om detta test är signifikant bidrar kovariaterna på ett betydande sätt till modellen.

Avvikelseanpassningstestet avspeglar hur passande data är för en Poissonfördelning i regressionen. Om det här testet är signifikant visas en röd asterisk vid P-värdet, och du bör överväga andra kovariater och/eller andra felfördelningar, t.ex. negativ binomial.

StatsDirect utesluter/avlägger inte kovariater från Poisson-regressionen om de är starkt korrelerade med varandra. Modeller som inte är av full (rang = antal parametrar) rang är fullt skattade i de flesta fall, men du bör vanligtvis överväga att kombinera eller utesluta variabler, eller eventuellt utesluta den konstanta termen. Du bör söka expertstatistik om du befinner dig i denna situation.

Teknisk validering

Den avvikande funktionen är:

– där y är antalet händelser, n är antalet observationer och μ är det anpassade Poissonmedelvärdet.

Den log-likelihood-funktionen är:

Den maximala sannolikhetsregressionen går till så att man iterativt återviktar de minsta kvadraterna och använder singulärvärdesdekomposition för att lösa det linjära systemet vid varje iteration, tills förändringen av avvikelsen ligger inom den angivna noggrannheten.

Pearsons chi-square-residual är:

Pearsons teststatistik för anpassningsförmåga är:

Den kvarstående avvikelsen är (Cook och Weisberg, 1982):

– där D(observation, passform) är avvikelsen och sgn(x) är tecknet på x.

Freeman-Tukey, variansstabiliserad, residual är (Freeman och Tukey, 1950):

Den standardiserade residual är:

– där h är hävstångseffekten (diagonalen i Hatmatrisen).

Exempel

Från Armitage et al. (2001):

Testarbetsbok (Regressionsarbetsblad: Cancers, Subject-years, Veterans, Age group).

För att analysera dessa data med hjälp av StatsDirect måste du först öppna testarbetsboken med hjälp av funktionen file open i menyn file. Generera sedan en uppsättning dummyvariabler för att representera nivåerna för variabeln ”Age group” med hjälp av funktionen Dummyvariabler i menyn Data. Välj sedan Poisson från avsnittet Regression och korrelation i menyn Analys. Klicka på alternativet ”Counts of events and exposure (person-time)” (antal händelser och exponering (person-tid)) och välj svarsdatatyp ”Individual” (individ). Välj den kolumn som är markerad med ”Cancers” när du blir ombedd att svara. Välj sedan ”Subject-years” när du blir ombedd att ange persontid. Välj sedan ”Veteraner”, ”Åldersgrupp (25-29)”, ”Åldersgrupp (30-34)” osv. i en och samma åtgärd när du ombeds ange prediktorer.

För det här exemplet:

Poissonregression

Devians (sannolikhetskvot) chi-square = 2067.700372 df = 11 P < 0,0001

Intercept b0 = -9,324832 z = -45.596773 P < 0.0001
Veteraner b1 = -0.003528 z = -0.063587 P = 0,9493
Åldersgrupp (25-29) b2 = 0,679314 z = 2.921869 P = 0,0035
Åldersgrupp (30-34) b3 = 1,371085 z = 6.297824 P < 0.0001
Åldersgrupp (35-39) b4 = 1.939619 z = 9.14648 P < 0.0001
Åldersgrupp (40-44) b5 = 2.034323 z = 9.413835 P < 0.0001
Åldersgrupp (45-49) b6 = 2.726551 z = 12.269534 P < 0.0001
Åldersgrupp (50-54) b7 = 3.202873 z = 14.515926 P < 0.0001
Åldersgrupp (55-59) b8 = 3.716187 z = 17.064363 P < 0.0001
Åldersgrupp (60-64) b9 = 4.092676 z = 18.801188 P < 0.0001
Åldersgrupp (65-69) b10 = 4.23621 z = 18.892791 P < 0.0001
Åldersgrupp (70+) b11 = 4.363717 z = 19.19183 P < 0.0001

log Cancers = -9.324832 -0.003528 Veteraner +0.679314 Åldersgrupp (25-29) +1.371085 Åldersgrupp (30-34) +1.939619 Åldersgrupp (35-39) +2.034323 Åldersgrupp (40-44) +2.726551 Åldersgrupp (45-49) +3.202873 Åldersgrupp (50-54) +3.716187 Åldersgrupp (55-59) +4.092676 Åldersgrupp (60-64) +4.23621 Åldersgrupp (65-69) +4.363717 Åldersgrupp (70+)

Poissonregression – incidenskvoten

Inferenspopulation: Hela studien (grundrisk)

Parameter Skattning IRR 95% CI
Veteraner -0.003528 0.996479 0.89381 till 1.11094
Åldersgrupp (25-29) 0.679314 1.972524 1.250616 till 3.111147
Åldersgrupp (30-34) 1.371085 3.939622 2.571233 till 6.036256
Åldersgrupp (35-39) 1.939619 6.956098 4.590483 till 10.540786
Åldersgrupp (40-44) 2.034323 7.647073 5.006696 till 11.679905
Åldersgrupp (45-49) 2.726551 15.280093 9.884869 till 23.620062
Åldersgrupp (50-54) 3.202873 24.60311 15.96527 till 37.914362
Åldersgrupp (55-59) 3.716187 41.107367 26.825601 till 62.992647
Åldersgrupp (60-64) 4.092676 59.899957 39.096281 till 91.773558
Åldersgrupp (65-69) 4.23621 69.145275 44.555675 till 107.305502
Åldersgrupp (70+) 4.363717 78.54856 50.303407 till 122.653248

Poissonregression – modellanalys

Noggrannhet = 1,00E-07

Loglikelihood med alla kovariater = -66,006668

Avvikelse med alla kovariater = 5.217124, df = 10, rank = 12

Akaike informationskriterium = 29.217124

Schwartz informationskriterium = 45.400676

Dvians utan kovariater = 2072.917496

Dvians (sannolikhetskvot, G²) = 2067.700372, df = 11, P < 0,0001

Pseudo (McFadden) R-kvadrat = 0,997483

Pseudo (likelihood ratio index) R-kvadrat = 0,939986

Pearson goodness of fit = 5,086063, df = 10, P = 0.8854

Deviansens passningsnoggrannhet = 5,217124, df = 10, P = 0,8762

Skaleparametern för överspridning = 0.508606

Skalerad G² = 4065.424363, df = 11, P < 0.0001

Skalerad Pearson-anpassningsnoggrannhet = 10, df = 10, P = 0.4405

Skalerad Devianspassningsnoggrannhet = 10.257687, df = 10, P = 0.4182

Parameter Koefficient Standardfel
Konstant -9.324832 0.204506
Veteraner -0.003528 0.055478
Åldersgrupp (25-29) 0.679314 0.232493
Åldersgrupp (30-34) 1.371085 0.217708
Åldersgrupp (35-39) 1.939619 0.212062
Åldersgrupp (40-44) 2.034323 0.216099
Åldersgrupp (45-49) 2.726551 0.222221
Åldersgrupp (50-54) 3.202873 0.220645
Åldersgrupp (55-59) 3.716187 0.217775
Åldersgrupp (60-64) 4.092676 0.217682
Åldersgrupp (65-69) 4.23621 0.224224
Åldersgrupp (70+) 4.363717 0.227374
Parameter Skalerat standardfel Skalerat Wald z
Konstant 0.145847 -63.935674 P < 0.0001
Veteraner 0.039565 -0.089162 P = 0.929
Åldersgrupp (25-29) 0.165806 4.097037 P < 0.0001
Åldersgrupp (30-34) 0.155262 8.830792 P < 0.0001
Åldersgrupp (35-39) 0.151235 12.825169 P < 0.0001
Åldersgrupp (40-44) 0.154115 13.200054 P < 0.0001
Åldersgrupp (45-49) 0.158481 17.204308 P < 0.0001
Åldersgrupp (50-54) 0.157357 20.354193 P < 0.0001
Åldersgrupp (55-59) 0.15531 23.927605 P < 0.0001
Åldersgrupp (60-64) 0.155243 26.362975 P < 0.0001
Åldersgrupp (65-69) 0.159909 26.491421 P < 0.0001
Åldersgrupp (70+) 0.162155 26.910733 P < 0.0001

Lämna ett svar

Din e-postadress kommer inte publiceras.