Menyplacering: Denna funktion anpassar en Poisson-regressionsmodell för multivariat analys av antalet ovanliga händelser i kohortstudier.
Den multiplikativa Poisson-regressionsmodellen anpassas som en loglinjär regression (i.d.v.s. en logaritmisk länk och en Poissonfelfördelning), med en förskjutning som är lika med den naturliga logaritmen av persontid om persontid anges (McCullagh och Nelder, 1989; Frome, 1983; Agresti, 2002). Med den multiplikativa Poissonmodellen är koefficienternas exponenter lika med incidenskvoten (relativ risk). Dessa relativa risker i utgångsläget ger värden i förhållande till namngivna kovariater för hela populationen. Du kan definiera relativa risker för en delpopulation genom att multiplicera den delpopulationens baslinje-relativa risk med de relativa risker som beror på andra grupperingar av kovarianter, t.ex. den relativa risken att dö i lungcancer om du är rökare och har bott i ett område med hög radonhalt. StatsDirect erbjuder relativa risker för delpopulationer för dikotoma kovarianter.
Resultatet/responsvariabeln antas komma från en Poisson-fördelning. Observera att en Poissonfördelning är fördelningen av antalet händelser i ett fast tidsintervall, förutsatt att händelserna inträffar slumpmässigt, oberoende av varandra i tiden och med en konstant hastighet. Poissonfördelningar används för att modellera händelser per rumsenhet såväl som per tidsenhet, t.ex. antal partiklar per kvadratcentimeter.
Poissonregression kan också användas för loglinjär modellering av data från contingencytabeller och för multinomial modellering. För kontingenstabellräkningar skulle du skapa r + c indikator-/dummyvariabler som kovariater, som representerar r rader och c kolumner i kontingenstabellen:
r1c1 | r1c2 | r1c3 | |
r2c1 | |||
r2c1 | r2c2 | r2c3 | |
r3c1 | r3c2 | r3c3 | r3c3 |
Svar | x_r1 | x_r2 | x_r3 | x_c1 | x_c2 | x_c3 | ||
r1c1 | 1 | 0 | 0 | 1 | 0 | 0 | ||
r1c2 | 1 | 0 | 0 | 0 | 0 | 1 | 0 | |
r1c3 | 1 | 0 | 0 | 0 | 0 | 0 | 1 | |
r2c1 | 0 | 1 | 0 | 1 | 0 | 0 | 0 | |
r2c2 | 0 | 1 | 0 | 0 | 1 | 0 | ||
r2c3 | 0 | 1 | 1 | 0 | 0 | 0 | 1 | |
r3c1 | 0 | 0 | 0 | 1 | 1 | 0 | 0 | |
r3c2 | 0 | 0 | 1 | 0 | 1 | 0 | ||
r3c3 | 0 | 0 | 0 | 1 | 0 | 0 | 0 | 1 |
Modellens lämplighet
För att bedöma om Poisson-regressionsmodellen är adekvat bör man först titta på den grundläggande deskriptiva statistiken för uppgifterna om antalet händelser. Om medelvärdet och variansen för antalet är mycket olika (motsvarande i en Poisson-fördelning) är det troligt att modellen är överspridd.
Modellanalysalternativet ger en skalparameter (sp) som ett mått på överspridning; denna är lika med Pearsons chi-square-statistik dividerad med antalet observationer minus antalet parametrar (kovariater och intercept). Koefficienternas varianser kan justeras genom att multipliceras med sp. Teststatistiken för anpassningsbarhet och residualerna kan justeras genom att divideras med sp. Med hjälp av en kvasi-likelihood-metod skulle sp kunna integreras med regressionen, men detta skulle förutsätta ett känt fast värde för sp, vilket sällan är fallet. Ett bättre tillvägagångssätt för överspridda Poisson-modeller är att använda en parametrisk alternativ modell, den negativa binomialmodellen.
Den statistiska teststatistiken för avvikelse (likelihood ratio), G², är den mest användbara sammanfattningen av den anpassade modellens lämplighet. Den representerar förändringen i avvikelse mellan den anpassade modellen och modellen med en konstant term och inga kovariater; därför beräknas inte G² om ingen konstant anges. Om detta test är signifikant bidrar kovariaterna på ett betydande sätt till modellen.
Avvikelseanpassningstestet avspeglar hur passande data är för en Poissonfördelning i regressionen. Om det här testet är signifikant visas en röd asterisk vid P-värdet, och du bör överväga andra kovariater och/eller andra felfördelningar, t.ex. negativ binomial.
StatsDirect utesluter/avlägger inte kovariater från Poisson-regressionen om de är starkt korrelerade med varandra. Modeller som inte är av full (rang = antal parametrar) rang är fullt skattade i de flesta fall, men du bör vanligtvis överväga att kombinera eller utesluta variabler, eller eventuellt utesluta den konstanta termen. Du bör söka expertstatistik om du befinner dig i denna situation.
Teknisk validering
Den avvikande funktionen är:
– där y är antalet händelser, n är antalet observationer och μ är det anpassade Poissonmedelvärdet.
Den log-likelihood-funktionen är:
Den maximala sannolikhetsregressionen går till så att man iterativt återviktar de minsta kvadraterna och använder singulärvärdesdekomposition för att lösa det linjära systemet vid varje iteration, tills förändringen av avvikelsen ligger inom den angivna noggrannheten.
Pearsons chi-square-residual är:
Pearsons teststatistik för anpassningsförmåga är:
Den kvarstående avvikelsen är (Cook och Weisberg, 1982):
– där D(observation, passform) är avvikelsen och sgn(x) är tecknet på x.
Freeman-Tukey, variansstabiliserad, residual är (Freeman och Tukey, 1950):
Den standardiserade residual är:
– där h är hävstångseffekten (diagonalen i Hatmatrisen).
Exempel
Från Armitage et al. (2001):
Testarbetsbok (Regressionsarbetsblad: Cancers, Subject-years, Veterans, Age group).
För att analysera dessa data med hjälp av StatsDirect måste du först öppna testarbetsboken med hjälp av funktionen file open i menyn file. Generera sedan en uppsättning dummyvariabler för att representera nivåerna för variabeln ”Age group” med hjälp av funktionen Dummyvariabler i menyn Data. Välj sedan Poisson från avsnittet Regression och korrelation i menyn Analys. Klicka på alternativet ”Counts of events and exposure (person-time)” (antal händelser och exponering (person-tid)) och välj svarsdatatyp ”Individual” (individ). Välj den kolumn som är markerad med ”Cancers” när du blir ombedd att svara. Välj sedan ”Subject-years” när du blir ombedd att ange persontid. Välj sedan ”Veteraner”, ”Åldersgrupp (25-29)”, ”Åldersgrupp (30-34)” osv. i en och samma åtgärd när du ombeds ange prediktorer.
För det här exemplet:
Poissonregression
Devians (sannolikhetskvot) chi-square = 2067.700372 df = 11 P < 0,0001
Intercept | b0 = -9,324832 | z = -45.596773 | P < 0.0001 |
Veteraner | b1 = -0.003528 | z = -0.063587 | P = 0,9493 |
Åldersgrupp (25-29) | b2 = 0,679314 | z = 2.921869 | P = 0,0035 |
Åldersgrupp (30-34) | b3 = 1,371085 | z = 6.297824 | P < 0.0001 |
Åldersgrupp (35-39) | b4 = 1.939619 | z = 9.14648 | P < 0.0001 |
Åldersgrupp (40-44) | b5 = 2.034323 | z = 9.413835 | P < 0.0001 |
Åldersgrupp (45-49) | b6 = 2.726551 | z = 12.269534 | P < 0.0001 |
Åldersgrupp (50-54) | b7 = 3.202873 | z = 14.515926 | P < 0.0001 |
Åldersgrupp (55-59) | b8 = 3.716187 | z = 17.064363 | P < 0.0001 |
Åldersgrupp (60-64) | b9 = 4.092676 | z = 18.801188 | P < 0.0001 |
Åldersgrupp (65-69) | b10 = 4.23621 | z = 18.892791 | P < 0.0001 |
Åldersgrupp (70+) | b11 = 4.363717 | z = 19.19183 | P < 0.0001 |
log Cancers = -9.324832 -0.003528 Veteraner +0.679314 Åldersgrupp (25-29) +1.371085 Åldersgrupp (30-34) +1.939619 Åldersgrupp (35-39) +2.034323 Åldersgrupp (40-44) +2.726551 Åldersgrupp (45-49) +3.202873 Åldersgrupp (50-54) +3.716187 Åldersgrupp (55-59) +4.092676 Åldersgrupp (60-64) +4.23621 Åldersgrupp (65-69) +4.363717 Åldersgrupp (70+)
Poissonregression – incidenskvoten
Inferenspopulation: Hela studien (grundrisk)
Parameter | Skattning | IRR | 95% CI | |
Veteraner | -0.003528 | 0.996479 | 0.89381 till 1.11094 | |
Åldersgrupp (25-29) | 0.679314 | 1.972524 | 1.250616 till 3.111147 | |
Åldersgrupp (30-34) | 1.371085 | 3.939622 | 2.571233 till 6.036256 | |
Åldersgrupp (35-39) | 1.939619 | 6.956098 | 4.590483 till 10.540786 | |
Åldersgrupp (40-44) | 2.034323 | 7.647073 | 5.006696 till 11.679905 | |
Åldersgrupp (45-49) | 2.726551 | 15.280093 | 9.884869 till 23.620062 | |
Åldersgrupp (50-54) | 3.202873 | 24.60311 | 15.96527 till 37.914362 | |
Åldersgrupp (55-59) | 3.716187 | 41.107367 | 26.825601 till 62.992647 | |
Åldersgrupp (60-64) | 4.092676 | 59.899957 | 39.096281 till 91.773558 | |
Åldersgrupp (65-69) | 4.23621 | 69.145275 | 44.555675 till 107.305502 | |
Åldersgrupp (70+) | 4.363717 | 78.54856 | 50.303407 till 122.653248 |
Poissonregression – modellanalys
Noggrannhet = 1,00E-07
Loglikelihood med alla kovariater = -66,006668
Avvikelse med alla kovariater = 5.217124, df = 10, rank = 12
Akaike informationskriterium = 29.217124
Schwartz informationskriterium = 45.400676
Dvians utan kovariater = 2072.917496
Dvians (sannolikhetskvot, G²) = 2067.700372, df = 11, P < 0,0001
Pseudo (McFadden) R-kvadrat = 0,997483
Pseudo (likelihood ratio index) R-kvadrat = 0,939986
Pearson goodness of fit = 5,086063, df = 10, P = 0.8854
Deviansens passningsnoggrannhet = 5,217124, df = 10, P = 0,8762
Skaleparametern för överspridning = 0.508606
Skalerad G² = 4065.424363, df = 11, P < 0.0001
Skalerad Pearson-anpassningsnoggrannhet = 10, df = 10, P = 0.4405
Skalerad Devianspassningsnoggrannhet = 10.257687, df = 10, P = 0.4182
Parameter | Koefficient | Standardfel |
Konstant | -9.324832 | 0.204506 |
Veteraner | -0.003528 | 0.055478 |
Åldersgrupp (25-29) | 0.679314 | 0.232493 |
Åldersgrupp (30-34) | 1.371085 | 0.217708 |
Åldersgrupp (35-39) | 1.939619 | 0.212062 |
Åldersgrupp (40-44) | 2.034323 | 0.216099 |
Åldersgrupp (45-49) | 2.726551 | 0.222221 |
Åldersgrupp (50-54) | 3.202873 | 0.220645 |
Åldersgrupp (55-59) | 3.716187 | 0.217775 |
Åldersgrupp (60-64) | 4.092676 | 0.217682 |
Åldersgrupp (65-69) | 4.23621 | 0.224224 |
Åldersgrupp (70+) | 4.363717 | 0.227374 |
Parameter | Skalerat standardfel | Skalerat Wald z | |
Konstant | 0.145847 | -63.935674 | P < 0.0001 |
Veteraner | 0.039565 | -0.089162 | P = 0.929 |
Åldersgrupp (25-29) | 0.165806 | 4.097037 | P < 0.0001 |
Åldersgrupp (30-34) | 0.155262 | 8.830792 | P < 0.0001 |
Åldersgrupp (35-39) | 0.151235 | 12.825169 | P < 0.0001 |
Åldersgrupp (40-44) | 0.154115 | 13.200054 | P < 0.0001 |
Åldersgrupp (45-49) | 0.158481 | 17.204308 | P < 0.0001 |
Åldersgrupp (50-54) | 0.157357 | 20.354193 | P < 0.0001 |
Åldersgrupp (55-59) | 0.15531 | 23.927605 | P < 0.0001 |
Åldersgrupp (60-64) | 0.155243 | 26.362975 | P < 0.0001 |
Åldersgrupp (65-69) | 0.159909 | 26.491421 | P < 0.0001 |
Åldersgrupp (70+) | 0.162155 | 26.910733 | P < 0.0001 |