Menü helye:
Ez a funkció egy Poisson-regressziós modellt illeszt a nem gyakori események számának többváltozós elemzéséhez kohorszvizsgálatokban.
A multiplikatív Poisson-regressziós modellt log-lineáris regresszióként illesztjük (i.azaz logkapcsolat és Poisson-hibaeloszlás), a személyidő természetes logaritmusával egyenlő eltolással, ha a személyidő van megadva (McCullagh és Nelder, 1989; Frome, 1983; Agresti, 2002). A multiplikatív Poisson-modell esetén az együtthatók exponensei megegyeznek az előfordulási arányszámmal (relatív kockázat). Ezek a kiindulási relatív kockázatok a teljes populációra vonatkozó, megnevezett kovariánsokhoz viszonyított értékeket adnak. Egy alpopulációra vonatkozó relatív kockázatokat úgy lehet meghatározni, hogy az adott alpopuláció relatív alapkockázatát megszorozzuk az egyéb kovariánsok csoportosítása miatti relatív kockázatokkal, például a tüdőrákban való halálozás relatív kockázatát, ha valaki dohányzik és magas radontartalmú területen élt. A StatsDirect alpopulációs relatív kockázatokat kínál dichotóm kovariánsokhoz.
A kimeneti/válaszváltozóról feltételezzük, hogy Poisson-eloszlásból származik. Megjegyzendő, hogy a Poisson-eloszlás az események számának eloszlása egy rögzített időintervallumban, feltéve, hogy az események véletlenszerűen, időben függetlenül és állandó sebességgel következnek be. A Poisson-eloszlásokat az időegységre és az időegységre jutó események modellezésére is használják, például a részecskék száma négyzetcentiméterenként.
A Poisson-regresszió használható kontingenciatábla-adatok log-lineáris modellezésére és multinomiális modellezésre is. A kontingenciatáblák számlálásához r + c indikátor/dummy változókat hozna létre kovariátorként, amelyek a kontingenciatábla r sorát és c oszlopát képviselik:
r1c1 | r1c2 | r1c3 | |
r2c1 | r2c2 | r2c3 | |
r3c1 | r3c2 | r3c3 | r3c3 |
Válasz | x_r1 | x_r2 | x_r3 | x_c1 | x_c2 | x_c3 | ||
r1c1 | 1 | 1 | 0 | 0 | 1 | 0 | 0 | |
r1c2 | 1 | 0 | 0 | 0 | 0 | 1 | 0 | |
r1c3 | 1 | 0 | 0 | 0 | 0 | 0 | 1 | |
r2c1 | 0 | 1 | 0 | 1 | 0 | 0 | 0 | |
r2c2 | 0 | 1 | 0 | 0 | 1 | 0 | ||
r2c3 | 0 | 1 | 1 | 0 | 0 | 0 | 1 | |
r3c1 | 0 | 0 | 0 | 1 | 1 | 0 | 0 | 0 |
r3c2 | 0 | 0 | 1 | 0 | 1 | 0 | ||
r3c3 | 0 | 0 | 0 | 1 | 0 | 0 | 0 | 1 |
A modell megfelelősége
A Poisson-regressziós modell megfelelőségének értékeléséhez először az eseményszámadatok alapvető leíró statisztikáit kell megvizsgálni. Ha a számlálási átlag és a variancia nagyon eltérő (Poisson-eloszlásban egyenértékű), akkor a modell valószínűleg túlságosan szórt.
A modellelemzés opció a túlságos szórás mértékeként egy skálaparamétert (sp) ad meg; ez egyenlő a Pearson khi-négyzet statisztikával osztva a megfigyelések számával mínusz a paraméterek (kovariánsok és intercept) száma. Az együtthatók szórásait az sp-vel való szorzással lehet kiigazítani. Az illeszkedési tesztstatisztikákat és a reziduumokat az sp-vel való osztással lehet kiigazítani. Egy kvázi valószínűségi megközelítéssel az sp integrálható a regresszióval, de ez feltételezné az sp ismert fix értékét, ami ritkán van így. A túlságosan szórt Poisson-modellek jobb megközelítése egy parametrikus alternatív modell, a negatív binomiális modell használata.
A deviancia (likelihood ratio) tesztstatisztika, G², a leghasznosabb összefoglalása az illesztett modell megfelelőségének. Az eltérés változását mutatja az illesztett modell és a konstans kifejezéssel és kovariánsok nélküli modell között; ezért a G²-t nem kell kiszámítani, ha nincs konstans megadva. Ha ez a teszt szignifikáns, akkor a kovariánsok jelentősen hozzájárulnak a modellhez.
A deviancia illeszkedés jóságának tesztje az adatok Poisson-eloszláshoz való illeszkedését tükrözi a regresszióban. Ha ez a teszt szignifikáns, akkor a P-érték mellett egy piros csillag jelenik meg, és más kovariánsokat és/vagy más hibaeloszlásokat, például negatív binomiális eloszlást kell mérlegelnie.
AStatsDirect nem zárja ki/elhagyja a kovariánsokat a Poisson-regresszióból, ha azok erősen korrelálnak egymással. A nem teljes (rang = paraméterek száma) rangú modellek a legtöbb esetben teljes mértékben becsültek, de általában meg kell fontolni a változók kombinálását vagy kizárását, esetleg a konstans kifejezés kizárását. Ha ilyen helyzetben találja magát, statisztikai szakértőhöz kell fordulnia.
Technikai validálás
A devianciafüggvény:
– ahol y az események száma, n a megfigyelések száma és μ az illesztett Poisson-középérték.
A log-likelihood függvény:
A maximális valószínűségű regresszió iteratívan újrasúlyozott legkisebb négyzetek módszerével halad, a lineáris rendszer megoldására minden egyes iterációban szinguláris értékbontást alkalmazva, amíg az eltérés változása a megadott pontosságon belül marad.
A Pearson-féle chi-négyzet reziduum:
A Pearson-féle illeszkedés jósági tesztstatisztika a következő:
A deviancia reziduum (Cook és Weisberg, 1982):
– ahol D(megfigyelés, illeszkedés) a deviancia és sgn(x) az x előjele.
A Freeman-Tukey-féle, varianciastabilizált reziduum (Freeman és Tukey, 1950):
A standardizált reziduum:
– ahol h a leverage (a Hat-mátrix diagonálisa).
Példa
Az Armitage et al. (2001) tanulmányból:
Teszt munkafüzet (Regressziós munkalap: Cancers, Subject-years, Veterans, Age group).
Az adatok StatsDirect segítségével történő elemzéséhez először meg kell nyitni a teszt munkafüzetet a fájl menü file open funkciójával. Ezután hozzon létre egy sor dummy változót a “Korcsoport” változó szintjeinek reprezentálására az Adat menü Dummy változók funkciójának használatával. Ezután válassza az Elemzés menü Regresszió és korreláció menüpontjából a Poisson változót. Kattintson az “Események és expozíció számlálása (személy-idő)” lehetőségre, és válassza ki a válasz adattípusaként az “Egyén” opciót. Válassza ki a “Rákos megbetegedések” jelölésű oszlopot, amikor a válaszadásra kérik. Ezután válassza a “Subject-years” (alany-évek) opciót, amikor a személy-időre kérdeznek rá. Ezután válassza ki a “Veteránok”, “Korcsoport (25-29)” , “Korcsoport (30-34)” stb. egy műveletben, amikor a prediktorokat kérdezik.
Ezért a példa:
Poisson-regresszió
Deviancia (likelihood ratio) chi-négyzet = 2067.700372 df = 11 P < 0.0001
Intercept | b0 = -9.324832 | z = -45.596773 | P < 0,0001 |
Veteránok | b1 = -0,003528 | z = -0.06353587 | P = 0.9493 |
Korcsoport (25-29) | b2 = 0.679314 | z = 2.921869 | P = 0.0035 |
Korcsoport (30-34) | b3 = 1.371085 | z = 6.297824 | P < 0.0001 |
Korcsoport (35-39) | b4 = 1.939619 | z = 9.14648 | P < 0.0001 |
Korcsoport (40-44) | b5 = 2.034323 | z = 9.413835 | P < 0.0001 |
Korcsoport (45-49) | b6 = 2.726551 | z = 12.269534 | P < 0.0001 |
Korcsoport (50-54) | b7 = 3.202873 | z = 14.515926 | P < 0.0001 |
Korcsoport (55-59) | b8 = 3.716187 | z = 17.064363 | P < 0.0001 |
Korcsoport (60-64) | b9 = 4.092676 | z = 18.801188 | P < 0.0001 |
Korcsoport (65-69) | b10 = 4.23621 | z = 18.892791 | P < 0.0001 |
Korcsoport (70+) | b11 = 4.363717 | z = 19.19183 | P < 0,0001 |
log Rákok = -9,324832 -0,003528 Veteránok +0.679314 Korcsoport (25-29) +1.371085 Korcsoport (30-34) +1.939619 Korcsoport (35-39) +2.034323 Korcsoport (40-44) +2.726551 Korcsoport (45-49) +3.202873 Korcsoport (50-54) +3.716187 Korcsoport (55-59) +4.092676 Korcsoport (60-64) +4.23621 Korcsoport (65-69) +4.363717 Korcsoport (70+)
Poisson-regresszió – előfordulási arányok
Inferencia populáció:
Paraméter | Esztimátum | IRR | 95% CI |
Veteránok | -0.003528 | 0,996479 | 0,89381-1,11094 |
Korcsoport (25-29) | 0,679314 | 1,972524 | 1,250616-3.111147 |
Korcsoport (30-34) | 1.371085 | 3.939622 | 2.571233 és 6.036256 |
Korcsoport (35-39) | 1.939619 | 6.956098 | 4.590483-10.540786 |
Korcsoport (40-44) | 2.034323 | 7.647073 | 5.006696 és 11.679905 |
Korcsoport (45-49) | 2.726551 | 15.280093 | 9.884869 és 23.620062 |
Korcsoport (50-54) | 3.202873 | 24.60311 | 15.96527 és 37.914362 |
Korcsoport (55-59) | 3.716187 | 41.107367 | 26.825601 és 62.992647 |
Korcsoport (60-64) | 4.092676 | 59.899957 | 39.096281 és 91.773558 |
Korcsoport (65-69) | 4.23621 | 69.145275 | 44.555675-től 107.305502 |
Korcsoport (70+) | 4.363717 | 78.54856 | 50.303407-122.653248 |
Poisson regresszió – modellelemzés
Accuracy = 1.00E-07
Log likelihood with all covariates = -66.006668
Deviancia with all covariates = 5.217124, df = 10, rang = 12
Akaike információs kritérium = 29,217124
Schwartz információs kritérium = 45,400676
Deviancia kovariánsok nélkül = 2072,917496
Deviancia (likelihood ratio, G²) = 2067.700372, df = 11, P < 0,0001
Pseudo (McFadden) R-négyzet = 0,997483
Pseudo (likelihood ratio index) R-négyzet = 0,939986
Pearson goodness of fit = 5,086063, df = 10, P = 0.8854
Deviance goodness of fit = 5.217124, df = 10, P = 0.8762
Over-dispersion scale parameter = 0.508606
Skalált G² = 4065,424363, df = 11, P < 0,0001
Skalált Pearson illeszkedés jósága = 10, df = 10, P = 0.4405
Skalált deviancia illeszkedés jósága = 10,257687, df = 10, P = 0,4182
Paraméter | Koefficiens | Standard hiba |
konstans | -9,324832 | 0.204506 |
Veteránok | -0.003528 | 0.055478 |
Korcsoport (25-29) | 0.679314 | 0.232493 |
Korcsoport (30-34) | 1.371085 | 0.217708 |
Korcsoport (35-39) | 1.939619 | 0.212062 |
Korcsoport (40-44) | 2.034323 | 0.216099 |
Korcsoport (45-49) | 2.726551 | 0.222221 |
Korcsoport (50-54) | 3.202873 | 0.220645 |
Korcsoport (55-59) | 3.716187 | 0.217775 |
Korcsoport (60-64) | 4.092676 | 0.217682 |
Korcsoport (65-69) | 4.23621 | 0.224224 |
Korcsoport (70+) | 4.363717 | 0.227374 |
Paraméter | Skalált standard hiba | Skalált Wald z | |
konstans | 0.145847 | -63,935674 | P < 0,0001 |
Veteránok | 0.039565 | -0.089162 | P = 0.929 |
Korcsoport (25-29) | 0.165806 | 4.097037 | P < 0.0001 |
Korcsoport (30-34) | 0.155262 | 8.830792 | P < 0.0001 |
Korcsoport (35-39) | 0.151235 | 12.825169 | P < 0.0001 |
Korcsoport (40-44) | 0.154115 | 13.200054 | P < 0.0001 |
Korcsoport (45-49) | 0.158481 | 17.204308 | P < 0.0001 |
Korcsoport (50-54) | 0.157357 | 20.354193 | P < 0.0001 |
Korcsoport (55-59) | 0.15531 | 23.927605 | P < 0.0001 |
Korcsoport (60-64) | 0.155243 | 26.362975 | P < 0.0001 |
Korcsoport (65-69) | 0.159909 | 26.491421 | P < 0.0001 |
Korcsoport (70+) | 0.162155 | 26.910733 | P < 0.0001 |