Poissonregression (incidensgrad)

Menyplacering: Denna funktion anpassar en Poisson-regressionsmodell för multivariat analys av antalet ovanliga händelser i kohortstudier.

Den multiplikativa Poisson-regressionsmodellen anpassas som en loglinjär regression (i.d.v.s. en logaritmisk länk och en Poissonfelfördelning), med en förskjutning som är lika med den naturliga logaritmen av persontid om persontid anges (McCullagh och Nelder, 1989; Frome, 1983; Agresti, 2002). Med den multiplikativa Poissonmodellen är koefficienternas exponenter lika med incidenskvoten (relativ risk). Dessa relativa risker i utgångsläget ger värden i förhållande till namngivna kovariater för hela populationen. Du kan definiera relativa risker för en delpopulation genom att multiplicera den delpopulationens baslinje-relativa risk med de relativa risker som beror på andra grupperingar av kovarianter, t.ex. den relativa risken att dö i lungcancer om du är rökare och har bott i ett område med hög radonhalt. StatsDirect erbjuder relativa risker för delpopulationer för dikotoma kovarianter.

Resultatet/responsvariabeln antas komma från en Poisson-fördelning. Observera att en Poissonfördelning är fördelningen av antalet händelser i ett fast tidsintervall, förutsatt att händelserna inträffar slumpmässigt, oberoende av varandra i tiden och med en konstant hastighet. Poissonfördelningar används för att modellera händelser per rumsenhet såväl som per tidsenhet, t.ex. antal partiklar per kvadratcentimeter.

Poissonregression kan också användas för loglinjär modellering av data från contingencytabeller och för multinomial modellering. För kontingenstabellräkningar skulle du skapa r + c indikator-/dummyvariabler som kovariater, som representerar r rader och c kolumner i kontingenstabellen:

r1c1	r1c2	r1c3
r2c1
r2c1	r2c2	r2c3
r3c1	r3c2	r3c3	r3c3

Svar	x_r1	x_r2	x_r3	x_c1	x_c2	x_c3
r1c1	1	0	0	1	0	0
r1c2	1	0	0	0	0	1	0
r1c3	1	0	0	0	0	0	1
r2c1	0	1	0	1	0	0	0
r2c2	0	1	0	0	1	0
r2c3	0	1	1	0	0	0	1
r3c1	0	0	0	1	1	0	0
r3c2	0	0	1	0	1	0
r3c3	0	0	0	1	0	0	0	1

Modellens lämplighet

För att bedöma om Poisson-regressionsmodellen är adekvat bör man först titta på den grundläggande deskriptiva statistiken för uppgifterna om antalet händelser. Om medelvärdet och variansen för antalet är mycket olika (motsvarande i en Poisson-fördelning) är det troligt att modellen är överspridd.

Modellanalysalternativet ger en skalparameter (sp) som ett mått på överspridning; denna är lika med Pearsons chi-square-statistik dividerad med antalet observationer minus antalet parametrar (kovariater och intercept). Koefficienternas varianser kan justeras genom att multipliceras med sp. Teststatistiken för anpassningsbarhet och residualerna kan justeras genom att divideras med sp. Med hjälp av en kvasi-likelihood-metod skulle sp kunna integreras med regressionen, men detta skulle förutsätta ett känt fast värde för sp, vilket sällan är fallet. Ett bättre tillvägagångssätt för överspridda Poisson-modeller är att använda en parametrisk alternativ modell, den negativa binomialmodellen.

Den statistiska teststatistiken för avvikelse (likelihood ratio), G², är den mest användbara sammanfattningen av den anpassade modellens lämplighet. Den representerar förändringen i avvikelse mellan den anpassade modellen och modellen med en konstant term och inga kovariater; därför beräknas inte G² om ingen konstant anges. Om detta test är signifikant bidrar kovariaterna på ett betydande sätt till modellen.

Avvikelseanpassningstestet avspeglar hur passande data är för en Poissonfördelning i regressionen. Om det här testet är signifikant visas en röd asterisk vid P-värdet, och du bör överväga andra kovariater och/eller andra felfördelningar, t.ex. negativ binomial.

StatsDirect utesluter/avlägger inte kovariater från Poisson-regressionen om de är starkt korrelerade med varandra. Modeller som inte är av full (rang = antal parametrar) rang är fullt skattade i de flesta fall, men du bör vanligtvis överväga att kombinera eller utesluta variabler, eller eventuellt utesluta den konstanta termen. Du bör söka expertstatistik om du befinner dig i denna situation.

Teknisk validering

Den avvikande funktionen är:

– där y är antalet händelser, n är antalet observationer och μ är det anpassade Poissonmedelvärdet.

Den log-likelihood-funktionen är:

Den maximala sannolikhetsregressionen går till så att man iterativt återviktar de minsta kvadraterna och använder singulärvärdesdekomposition för att lösa det linjära systemet vid varje iteration, tills förändringen av avvikelsen ligger inom den angivna noggrannheten.

Pearsons chi-square-residual är:

Pearsons teststatistik för anpassningsförmåga är:

Den kvarstående avvikelsen är (Cook och Weisberg, 1982):

– där D(observation, passform) är avvikelsen och sgn(x) är tecknet på x.

Freeman-Tukey, variansstabiliserad, residual är (Freeman och Tukey, 1950):

Den standardiserade residual är:

– där h är hävstångseffekten (diagonalen i Hatmatrisen).

Exempel

Från Armitage et al. (2001):

Testarbetsbok (Regressionsarbetsblad: Cancers, Subject-years, Veterans, Age group).

För att analysera dessa data med hjälp av StatsDirect måste du först öppna testarbetsboken med hjälp av funktionen file open i menyn file. Generera sedan en uppsättning dummyvariabler för att representera nivåerna för variabeln ”Age group” med hjälp av funktionen Dummyvariabler i menyn Data. Välj sedan Poisson från avsnittet Regression och korrelation i menyn Analys. Klicka på alternativet ”Counts of events and exposure (person-time)” (antal händelser och exponering (person-tid)) och välj svarsdatatyp ”Individual” (individ). Välj den kolumn som är markerad med ”Cancers” när du blir ombedd att svara. Välj sedan ”Subject-years” när du blir ombedd att ange persontid. Välj sedan ”Veteraner”, ”Åldersgrupp (25-29)”, ”Åldersgrupp (30-34)” osv. i en och samma åtgärd när du ombeds ange prediktorer.

För det här exemplet:

Poissonregression

Devians (sannolikhetskvot) chi-square = 2067.700372 df = 11 P < 0,0001

Intercept	b0 = -9,324832	z = -45.596773	P < 0.0001
Veteraner	b1 = -0.003528	z = -0.063587	P = 0,9493
Åldersgrupp (25-29)	b2 = 0,679314	z = 2.921869	P = 0,0035
Åldersgrupp (30-34)	b3 = 1,371085	z = 6.297824	P < 0.0001
Åldersgrupp (35-39)	b4 = 1.939619	z = 9.14648	P < 0.0001
Åldersgrupp (40-44)	b5 = 2.034323	z = 9.413835	P < 0.0001
Åldersgrupp (45-49)	b6 = 2.726551	z = 12.269534	P < 0.0001
Åldersgrupp (50-54)	b7 = 3.202873	z = 14.515926	P < 0.0001
Åldersgrupp (55-59)	b8 = 3.716187	z = 17.064363	P < 0.0001
Åldersgrupp (60-64)	b9 = 4.092676	z = 18.801188	P < 0.0001
Åldersgrupp (65-69)	b10 = 4.23621	z = 18.892791	P < 0.0001
Åldersgrupp (70+)	b11 = 4.363717	z = 19.19183	P < 0.0001

log Cancers = -9.324832 -0.003528 Veteraner +0.679314 Åldersgrupp (25-29) +1.371085 Åldersgrupp (30-34) +1.939619 Åldersgrupp (35-39) +2.034323 Åldersgrupp (40-44) +2.726551 Åldersgrupp (45-49) +3.202873 Åldersgrupp (50-54) +3.716187 Åldersgrupp (55-59) +4.092676 Åldersgrupp (60-64) +4.23621 Åldersgrupp (65-69) +4.363717 Åldersgrupp (70+)

Poissonregression – incidenskvoten

Inferenspopulation: Hela studien (grundrisk)

Parameter	Skattning	IRR	95% CI
Veteraner	-0.003528	0.996479	0.89381 till 1.11094
Åldersgrupp (25-29)	0.679314	1.972524	1.250616 till 3.111147
Åldersgrupp (30-34)	1.371085	3.939622	2.571233 till 6.036256
Åldersgrupp (35-39)	1.939619	6.956098	4.590483 till 10.540786
Åldersgrupp (40-44)	2.034323	7.647073	5.006696 till 11.679905
Åldersgrupp (45-49)	2.726551	15.280093	9.884869 till 23.620062
Åldersgrupp (50-54)	3.202873	24.60311	15.96527 till 37.914362
Åldersgrupp (55-59)	3.716187	41.107367	26.825601 till 62.992647
Åldersgrupp (60-64)	4.092676	59.899957	39.096281 till 91.773558
Åldersgrupp (65-69)	4.23621	69.145275	44.555675 till 107.305502
	Åldersgrupp (70+)	4.363717	78.54856	50.303407 till 122.653248

Poissonregression – modellanalys

Noggrannhet = 1,00E-07

Loglikelihood med alla kovariater = -66,006668

Avvikelse med alla kovariater = 5.217124, df = 10, rank = 12

Akaike informationskriterium = 29.217124

Schwartz informationskriterium = 45.400676

Dvians utan kovariater = 2072.917496

Dvians (sannolikhetskvot, G²) = 2067.700372, df = 11, P < 0,0001

Pseudo (McFadden) R-kvadrat = 0,997483

Pseudo (likelihood ratio index) R-kvadrat = 0,939986

Pearson goodness of fit = 5,086063, df = 10, P = 0.8854

Deviansens passningsnoggrannhet = 5,217124, df = 10, P = 0,8762

Skaleparametern för överspridning = 0.508606

Skalerad G² = 4065.424363, df = 11, P < 0.0001

Skalerad Pearson-anpassningsnoggrannhet = 10, df = 10, P = 0.4405

Skalerad Devianspassningsnoggrannhet = 10.257687, df = 10, P = 0.4182

Parameter	Koefficient	Standardfel
Konstant	-9.324832	0.204506
Veteraner	-0.003528	0.055478
Åldersgrupp (25-29)	0.679314	0.232493
Åldersgrupp (30-34)	1.371085	0.217708
Åldersgrupp (35-39)	1.939619	0.212062
Åldersgrupp (40-44)	2.034323	0.216099
Åldersgrupp (45-49)	2.726551	0.222221
Åldersgrupp (50-54)	3.202873	0.220645
Åldersgrupp (55-59)	3.716187	0.217775
Åldersgrupp (60-64)	4.092676	0.217682
Åldersgrupp (65-69)	4.23621	0.224224
Åldersgrupp (70+)	4.363717	0.227374

Parameter	Skalerat standardfel	Skalerat Wald z
Konstant	0.145847	-63.935674	P < 0.0001
Veteraner	0.039565	-0.089162	P = 0.929
Åldersgrupp (25-29)	0.165806	4.097037	P < 0.0001
Åldersgrupp (30-34)	0.155262	8.830792	P < 0.0001
Åldersgrupp (35-39)	0.151235	12.825169	P < 0.0001
Åldersgrupp (40-44)	0.154115	13.200054	P < 0.0001
Åldersgrupp (45-49)	0.158481	17.204308	P < 0.0001
Åldersgrupp (50-54)	0.157357	20.354193	P < 0.0001
Åldersgrupp (55-59)	0.15531	23.927605	P < 0.0001
Åldersgrupp (60-64)	0.155243	26.362975	P < 0.0001
Åldersgrupp (65-69)	0.159909	26.491421	P < 0.0001
Åldersgrupp (70+)	0.162155	26.910733	P < 0.0001

Lämna ett svar Avbryt svar