Poisson regresszió (előfordulási arány)

Menü helye:

Ez a funkció egy Poisson-regressziós modellt illeszt a nem gyakori események számának többváltozós elemzéséhez kohorszvizsgálatokban.

A multiplikatív Poisson-regressziós modellt log-lineáris regresszióként illesztjük (i.azaz logkapcsolat és Poisson-hibaeloszlás), a személyidő természetes logaritmusával egyenlő eltolással, ha a személyidő van megadva (McCullagh és Nelder, 1989; Frome, 1983; Agresti, 2002). A multiplikatív Poisson-modell esetén az együtthatók exponensei megegyeznek az előfordulási arányszámmal (relatív kockázat). Ezek a kiindulási relatív kockázatok a teljes populációra vonatkozó, megnevezett kovariánsokhoz viszonyított értékeket adnak. Egy alpopulációra vonatkozó relatív kockázatokat úgy lehet meghatározni, hogy az adott alpopuláció relatív alapkockázatát megszorozzuk az egyéb kovariánsok csoportosítása miatti relatív kockázatokkal, például a tüdőrákban való halálozás relatív kockázatát, ha valaki dohányzik és magas radontartalmú területen élt. A StatsDirect alpopulációs relatív kockázatokat kínál dichotóm kovariánsokhoz.

A kimeneti/válaszváltozóról feltételezzük, hogy Poisson-eloszlásból származik. Megjegyzendő, hogy a Poisson-eloszlás az események számának eloszlása egy rögzített időintervallumban, feltéve, hogy az események véletlenszerűen, időben függetlenül és állandó sebességgel következnek be. A Poisson-eloszlásokat az időegységre és az időegységre jutó események modellezésére is használják, például a részecskék száma négyzetcentiméterenként.

A Poisson-regresszió használható kontingenciatábla-adatok log-lineáris modellezésére és multinomiális modellezésre is. A kontingenciatáblák számlálásához r + c indikátor/dummy változókat hozna létre kovariátorként, amelyek a kontingenciatábla r sorát és c oszlopát képviselik:

r1c1	r1c2	r1c3
r2c1	r2c2	r2c3
r3c1	r3c2	r3c3	r3c3

Válasz	x_r1	x_r2	x_r3	x_c1	x_c2	x_c3
r1c1	1	1	0	0	1	0	0
r1c2	1	0	0	0	0	1	0
r1c3	1	0	0	0	0	0	1
r2c1	0	1	0	1	0	0	0
r2c2	0	1	0	0	1	0
r2c3	0	1	1	0	0	0	1
r3c1	0	0	0	1	1	0	0	0
r3c2	0	0	1	0	1	0
r3c3	0	0	0	1	0	0	0	1

A modell megfelelősége

A Poisson-regressziós modell megfelelőségének értékeléséhez először az eseményszámadatok alapvető leíró statisztikáit kell megvizsgálni. Ha a számlálási átlag és a variancia nagyon eltérő (Poisson-eloszlásban egyenértékű), akkor a modell valószínűleg túlságosan szórt.

A modellelemzés opció a túlságos szórás mértékeként egy skálaparamétert (sp) ad meg; ez egyenlő a Pearson khi-négyzet statisztikával osztva a megfigyelések számával mínusz a paraméterek (kovariánsok és intercept) száma. Az együtthatók szórásait az sp-vel való szorzással lehet kiigazítani. Az illeszkedési tesztstatisztikákat és a reziduumokat az sp-vel való osztással lehet kiigazítani. Egy kvázi valószínűségi megközelítéssel az sp integrálható a regresszióval, de ez feltételezné az sp ismert fix értékét, ami ritkán van így. A túlságosan szórt Poisson-modellek jobb megközelítése egy parametrikus alternatív modell, a negatív binomiális modell használata.

A deviancia (likelihood ratio) tesztstatisztika, G², a leghasznosabb összefoglalása az illesztett modell megfelelőségének. Az eltérés változását mutatja az illesztett modell és a konstans kifejezéssel és kovariánsok nélküli modell között; ezért a G²-t nem kell kiszámítani, ha nincs konstans megadva. Ha ez a teszt szignifikáns, akkor a kovariánsok jelentősen hozzájárulnak a modellhez.

A deviancia illeszkedés jóságának tesztje az adatok Poisson-eloszláshoz való illeszkedését tükrözi a regresszióban. Ha ez a teszt szignifikáns, akkor a P-érték mellett egy piros csillag jelenik meg, és más kovariánsokat és/vagy más hibaeloszlásokat, például negatív binomiális eloszlást kell mérlegelnie.

AStatsDirect nem zárja ki/elhagyja a kovariánsokat a Poisson-regresszióból, ha azok erősen korrelálnak egymással. A nem teljes (rang = paraméterek száma) rangú modellek a legtöbb esetben teljes mértékben becsültek, de általában meg kell fontolni a változók kombinálását vagy kizárását, esetleg a konstans kifejezés kizárását. Ha ilyen helyzetben találja magát, statisztikai szakértőhöz kell fordulnia.

Technikai validálás

A devianciafüggvény:

– ahol y az események száma, n a megfigyelések száma és μ az illesztett Poisson-középérték.

A log-likelihood függvény:

A maximális valószínűségű regresszió iteratívan újrasúlyozott legkisebb négyzetek módszerével halad, a lineáris rendszer megoldására minden egyes iterációban szinguláris értékbontást alkalmazva, amíg az eltérés változása a megadott pontosságon belül marad.

A Pearson-féle chi-négyzet reziduum:

A Pearson-féle illeszkedés jósági tesztstatisztika a következő:

A deviancia reziduum (Cook és Weisberg, 1982):

– ahol D(megfigyelés, illeszkedés) a deviancia és sgn(x) az x előjele.

A Freeman-Tukey-féle, varianciastabilizált reziduum (Freeman és Tukey, 1950):

A standardizált reziduum:

– ahol h a leverage (a Hat-mátrix diagonálisa).

Példa

Az Armitage et al. (2001) tanulmányból:

Teszt munkafüzet (Regressziós munkalap: Cancers, Subject-years, Veterans, Age group).

Az adatok StatsDirect segítségével történő elemzéséhez először meg kell nyitni a teszt munkafüzetet a fájl menü file open funkciójával. Ezután hozzon létre egy sor dummy változót a “Korcsoport” változó szintjeinek reprezentálására az Adat menü Dummy változók funkciójának használatával. Ezután válassza az Elemzés menü Regresszió és korreláció menüpontjából a Poisson változót. Kattintson az “Események és expozíció számlálása (személy-idő)” lehetőségre, és válassza ki a válasz adattípusaként az “Egyén” opciót. Válassza ki a “Rákos megbetegedések” jelölésű oszlopot, amikor a válaszadásra kérik. Ezután válassza a “Subject-years” (alany-évek) opciót, amikor a személy-időre kérdeznek rá. Ezután válassza ki a “Veteránok”, “Korcsoport (25-29)” , “Korcsoport (30-34)” stb. egy műveletben, amikor a prediktorokat kérdezik.

Ezért a példa:

Poisson-regresszió

Deviancia (likelihood ratio) chi-négyzet = 2067.700372 df = 11 P < 0.0001

Intercept	b0 = -9.324832	z = -45.596773	P < 0,0001
Veteránok	b1 = -0,003528	z = -0.06353587	P = 0.9493
Korcsoport (25-29)	b2 = 0.679314	z = 2.921869	P = 0.0035
Korcsoport (30-34)	b3 = 1.371085	z = 6.297824	P < 0.0001
Korcsoport (35-39)	b4 = 1.939619	z = 9.14648	P < 0.0001
Korcsoport (40-44)	b5 = 2.034323	z = 9.413835	P < 0.0001
Korcsoport (45-49)	b6 = 2.726551	z = 12.269534	P < 0.0001
Korcsoport (50-54)	b7 = 3.202873	z = 14.515926	P < 0.0001
Korcsoport (55-59)	b8 = 3.716187	z = 17.064363	P < 0.0001
Korcsoport (60-64)	b9 = 4.092676	z = 18.801188	P < 0.0001
Korcsoport (65-69)	b10 = 4.23621	z = 18.892791	P < 0.0001
Korcsoport (70+)	b11 = 4.363717	z = 19.19183	P < 0,0001

log Rákok = -9,324832 -0,003528 Veteránok +0.679314 Korcsoport (25-29) +1.371085 Korcsoport (30-34) +1.939619 Korcsoport (35-39) +2.034323 Korcsoport (40-44) +2.726551 Korcsoport (45-49) +3.202873 Korcsoport (50-54) +3.716187 Korcsoport (55-59) +4.092676 Korcsoport (60-64) +4.23621 Korcsoport (65-69) +4.363717 Korcsoport (70+)

Poisson-regresszió – előfordulási arányok

Inferencia populáció:

Paraméter	Esztimátum	IRR	95% CI
Veteránok	-0.003528	0,996479	0,89381-1,11094
Korcsoport (25-29)	0,679314	1,972524	1,250616-3.111147
Korcsoport (30-34)	1.371085	3.939622	2.571233 és 6.036256
Korcsoport (35-39)	1.939619	6.956098	4.590483-10.540786
Korcsoport (40-44)	2.034323	7.647073	5.006696 és 11.679905
Korcsoport (45-49)	2.726551	15.280093	9.884869 és 23.620062
Korcsoport (50-54)	3.202873	24.60311	15.96527 és 37.914362
Korcsoport (55-59)	3.716187	41.107367	26.825601 és 62.992647
Korcsoport (60-64)	4.092676	59.899957	39.096281 és 91.773558
Korcsoport (65-69)	4.23621	69.145275	44.555675-től 107.305502
Korcsoport (70+)	4.363717	78.54856	50.303407-122.653248

Poisson regresszió – modellelemzés

Accuracy = 1.00E-07

Log likelihood with all covariates = -66.006668

Deviancia with all covariates = 5.217124, df = 10, rang = 12

Akaike információs kritérium = 29,217124

Schwartz információs kritérium = 45,400676

Deviancia kovariánsok nélkül = 2072,917496

Deviancia (likelihood ratio, G²) = 2067.700372, df = 11, P < 0,0001

Pseudo (McFadden) R-négyzet = 0,997483

Pseudo (likelihood ratio index) R-négyzet = 0,939986

Pearson goodness of fit = 5,086063, df = 10, P = 0.8854

Deviance goodness of fit = 5.217124, df = 10, P = 0.8762

Over-dispersion scale parameter = 0.508606

Skalált G² = 4065,424363, df = 11, P < 0,0001

Skalált Pearson illeszkedés jósága = 10, df = 10, P = 0.4405

Skalált deviancia illeszkedés jósága = 10,257687, df = 10, P = 0,4182

Paraméter	Koefficiens	Standard hiba
konstans	-9,324832	0.204506
Veteránok	-0.003528	0.055478
Korcsoport (25-29)	0.679314	0.232493
Korcsoport (30-34)	1.371085	0.217708
Korcsoport (35-39)	1.939619	0.212062
Korcsoport (40-44)	2.034323	0.216099
Korcsoport (45-49)	2.726551	0.222221
Korcsoport (50-54)	3.202873	0.220645
Korcsoport (55-59)	3.716187	0.217775
Korcsoport (60-64)	4.092676	0.217682
Korcsoport (65-69)	4.23621	0.224224
Korcsoport (70+)	4.363717	0.227374

Paraméter	Skalált standard hiba	Skalált Wald z
konstans	0.145847	-63,935674	P < 0,0001
Veteránok	0.039565	-0.089162	P = 0.929
Korcsoport (25-29)	0.165806	4.097037	P < 0.0001
Korcsoport (30-34)	0.155262	8.830792	P < 0.0001
Korcsoport (35-39)	0.151235	12.825169	P < 0.0001
Korcsoport (40-44)	0.154115	13.200054	P < 0.0001
Korcsoport (45-49)	0.158481	17.204308	P < 0.0001
Korcsoport (50-54)	0.157357	20.354193	P < 0.0001
Korcsoport (55-59)	0.15531	23.927605	P < 0.0001
Korcsoport (60-64)	0.155243	26.362975	P < 0.0001
Korcsoport (65-69)	0.159909	26.491421	P < 0.0001
Korcsoport (70+)	0.162155	26.910733	P < 0.0001

Vélemény, hozzászólás? Kilépés a válaszból