Umístění v menu:
Tato funkce přizpůsobuje model Poissonovy regrese pro vícerozměrnou analýzu počtu neobvyklých událostí v kohortových studiích.
Multiplikativní model Poissonovy regrese je přizpůsoben jako log-lineární regrese (tj.Tj. logaritmická vazba a Poissonovo rozdělení chyb) s posunem rovným přirozenému logaritmu osobo-času, pokud je uveden osobo-čas (McCullagh a Nelder, 1989; Frome, 1983; Agresti, 2002). U multiplikativního Poissonova modelu se exponenty koeficientů rovnají poměru incidence (relativnímu riziku). Tato základní relativní rizika udávají hodnoty vztažené ke jmenovaným kovariátám pro celou populaci. Relativní rizika pro dílčí populaci můžete definovat vynásobením základního relativního rizika této dílčí populace relativními riziky způsobenými jinými skupinami kovariátů, například relativním rizikem úmrtí na rakovinu plic, pokud jste kuřák, který žil v oblasti s vysokým obsahem radonu. StatsDirect nabízí relativní rizika subpopulace pro dichotomické kovariáty.
Předpokládá se, že proměnná výsledku/odpovědi pochází z Poissonova rozdělení. Všimněte si, že Poissonovo rozdělení je rozdělení počtu událostí v pevném časovém intervalu za předpokladu, že se události vyskytují náhodně, nezávisle v čase a konstantní rychlostí. Poissonovo rozdělení se používá pro modelování událostí na jednotku prostoru i času, například počet částic na centimetr čtvereční.
Poissonovu regresi lze také použít pro logaritmické modelování dat z kontingenčních tabulek a pro multinomické modelování. Pro počty v kontingenční tabulce byste jako kovariáty vytvořili r + c indikátorových/směrodatných proměnných, které představují r řádků a c sloupců kontingenční tabulky:
r1c1 | r1c2 | r1c3 |
r2c1 | r2c2 | r2c3 |
r3c1 | r3c2 | r3c3 |
Response | x_r1 | x_r2 | x_r3 | x_c1 | x_c2 | x_c3 | |
r1c1 | 1 | 0 | 0 | 1 | 0 | 0 | |
r1c2 | 1 | 0 | 0 | 0 | 1 | 0 | |
r1c3 | 1 | 0 | 0 | 0 | 0 | 0 | 1 |
r2c1 | 0 | 1 | 0 | 1 | 0 | 0 | |
r2c2 | 0 | 1 | 0 | 0 | 1 | 0 | |
r2c3 | 0 | 1 | 0 | 0 | 0 | 1 | |
r3c1 | 0 | 0 | 1 | 1 | 0 | 0 | |
r3c2 | 0 | 0 | 1 | 0 | 1 | 0 | |
r3c3 | 0 | 0 | 1 | 0 | 0 | 0 | 1 |
Adekvátnost modelu
Pro posouzení adekvátnosti Poissonova regresního modelu je třeba se nejprve podívat na základní popisné statistiky pro data o počtu událostí. Pokud jsou průměr a rozptyl počtu velmi rozdílné (ekvivalentní v Poissonově rozdělení), pak je pravděpodobné, že model je příliš rozptýlený.
Volba analýzy modelu udává jako míru přílišného rozptylu parametr měřítka (sp); ten se rovná Pearsonově chí-kvadrát statistice dělené počtem pozorování minus počet parametrů (kovariát a interceptu). Rozptyly koeficientů lze upravit vynásobením sp. Statistiky testů dobré shody a reziduí lze upravit vydělením sp. Pomocí kvazi-pravděpodobnostního přístupu by sp mohl být integrován s regresí, ale to by předpokládalo známou pevnou hodnotu sp, což se stává jen zřídka. Lepším přístupem k příliš rozptýleným Poissonovým modelům je použití parametrického alternativního modelu, záporného binomického modelu.
Testovací statistika odchylky (poměru pravděpodobnosti), G², je nejužitečnějším shrnutím adekvátnosti fitovaného modelu. Představuje změnu odchylky mezi fitovaným modelem a modelem s konstantním členem a bez kovariát; proto se G² nepočítá, pokud není zadána žádná konstanta. Pokud je tento test významný, pak kovariáty významně přispívají k modelu.
Test dobré shody odchylky odráží shodu dat s Poissonovým rozdělením v regresi. Pokud je tento test významný, pak se u hodnoty P zobrazí červená hvězdička a měli byste zvážit jiné kovariáty a/nebo jiné rozdělení chyb, například negativní binomické.
StatsDirect nevylučuje/nevyřazuje kovariáty z Poissonovy regrese, pokud jsou vzájemně vysoce korelované. Modely, které nemají plný (rank = počet parametrů) rank, jsou za většiny okolností plně odhadnuty, ale obvykle byste měli zvážit kombinaci nebo vyloučení proměnných, případně vyloučení konstantního členu. Pokud se ocitnete v této situaci, měli byste vyhledat odborného statistika.
Technické ověření
Funkce odchylky je:
– kde y je počet událostí, n je počet pozorování a μ je fitovaný Poissonův průměr.
Funkce logaritmické věrohodnosti je:
Regrese maximální věrohodnosti probíhá iterativně převáženou metodou nejmenších čtverců s použitím rozkladu singulárních hodnot k řešení lineárního systému při každé iteraci, dokud změna odchylky není v rámci stanovené přesnosti.
Pearsonův chí-kvadrát reziduum je:
Pearsonova testovací statistika dobré shody je:
Reziduál odchylky je (Cook a Weisberg, 1982):
-kde D(pozorování, fit) je odchylka a sgn(x) je znaménko x.
Freeman-Tukeyho, rozptylově stabilizované, reziduum je (Freeman a Tukey, 1950):
Standardizované reziduum je:
– kde h je páka (diagonála matice Hat).
Příklad
Z Armitage et al. (2001):
Testovací sešit (Regresní list: Rakoviny, Subjekt-roky, Veteráni, Věková skupina).
Chcete-li analyzovat tato data pomocí programu StatsDirect, musíte nejprve otevřít testovací sešit pomocí funkce otevření souboru v nabídce souborů. Poté vytvořte sadu fiktivních proměnných, které budou představovat úrovně proměnné „Věková skupina“, pomocí funkce Dummy Variables v nabídce Data. Poté v části Regression and Correlation (Regrese a korelace) nabídky Analysis (Analýza) vyberte funkci Poisson. Klikněte na možnost „Counts of events and exposure (person-time) (Počty událostí a expozice (čas osoby)) a vyberte typ dat odpovědi jako „Individual“ (Jednotlivec). Po výzvě k zadání odpovědi vyberte sloupec označený „Cancancer“. Poté při dotazu na odpověď „Person-time“ (Čas osoby) vyberte možnost „Subject-years“ (Roky subjektu). Pak vyberte „Veteráni“, „Věková skupina (25-29 let)“ , „Věková skupina (30-34 let)“ atd. v jedné akci, když jste dotázáni na prediktory.
Pro tento příklad:
Poissonova regrese
Odchylka (poměr pravděpodobnosti) chí-kvadrát = 2067.700372 df = 11 P < 0,0001
Intercept | b0 = -9,324832 | z = -45.596773 | P < 0,0001 |
Veterán | b1 = -0,003528 | z = -0.063587 | P = 0,9493 |
Věková skupina (25-29 let) | b2 = 0,679314 | z = 2.921869 | P = 0,0035 |
Věková skupina (30-34) | b3 = 1,371085 | z = 6.297824 | P < 0,0001 |
Věková skupina (35-39) | b4 = 1.939619 | z = 9,14648 | P < 0,0001 |
Věková skupina (40-44) | b5 = 2.034323 | z = 9,413835 | P < 0,0001 |
Věková skupina (45-49) | b6 = 2,726551 | z = 12,269534 | P < 0.0001 |
Věková skupina (50-54) | b7 = 3,202873 | z = 14,515926 | P < 0.0001 |
Věková skupina (55-59) | b8 = 3,716187 | z = 17,064363 | P < 0.0001 |
Věková skupina (60-64) | b9 = 4,092676 | z = 18.801188 | P < 0,0001 |
Věková skupina (65-69) | b10 = 4,23621 | z = 18.892791 | P < 0,0001 |
Věková skupina (70+) | b11 = 4,363717 | z = 19.19183 | P < 0,0001 |
log Cancers = -9,324832 -0,003528 Veterans +0.679314 Věková skupina (25-29) +1,371085 Věková skupina (30-34) +1,939619 Věková skupina (35-39) +2,034323 Věková skupina (40-44) +2,726551 Věková skupina (45-49) +3,202873 Věková skupina (50-54) +3,716187 Věková skupina (55-59) +4,092676 Věková skupina (60-64) +4,23621 Věková skupina (65-69) +4.363717 Věková skupina (70+)
Poissonova regrese – poměry incidence
Inferenční populace: celá studie (základní riziko)
Parametr | Odhad | IRR | 95% CI |
Veteráni | -0.003528 | 0,996479 | 0,89381 až 1,11094 |
Věková skupina (25-29 let) | 0,679314 | 1,972524 | 1,250616 až 3.111147 |
Věková skupina (30-34) | 1,371085 | 3,939622 | 2,571233 až 6,036256 |
Věková skupina (35-39) | 1.939619 | 6,956098 | 4,590483 až 10,540786 |
Věková skupina (40-44) | 2.034323 | 7,647073 | 5,006696 až 11,679905 |
Věková skupina (45-49) | 2.726551 | 15,280093 | 9,884869 až 23,620062 |
Věková skupina (50-54) | 3.202873 | 24,60311 | 15,96527 až 37,914362 |
Věková skupina (55-59) | 3.716187 | 41,107367 | 26,825601 až 62,992647 |
Věková skupina (60-64) | 4,092676 | 59,899957 | 39,096281 až 91.773558 |
Věková skupina (65-69) | 4,23621 | 69,145275 | 44,555675 až 107.305502 |
Věková skupina (70+) | 4,363717 | 78,54856 | 50,303407 až 122.653248 |
Poissonova regrese – analýza modelu
Přesnost = 1,00E-07
Log likelihood se všemi kovariátami = -66,006668
Odchylka se všemi kovariátami = 5.217124, df = 10, rank = 12
Akaikeho informační kritérium = 29,217124
Schwartzovo informační kritérium = 45,400676
Deviance bez kovariát = 2072,917496
Deviance (poměr pravděpodobnosti, G²) = 2067.700372, df = 11, P < 0,0001
Pseudo (McFadden) R-kvadrát = 0,997483
Pseudo (likelihood ratio index) R-kvadrát = 0,939986
Pearson goodness of fit = 5,086063, df = 10, P = 0.8854
Deviance goodness of fit = 5,217124, df = 10, P = 0,8762
Parametr stupnice nadměrného rozptylu = 0.508606
Škála G² = 4065,424363, df = 11, P < 0,0001
Škála Pearsonova dobrá shoda = 10, df = 10, P = 0.4405
Scaled Deviance goodness of fit = 10,257687, df = 10, P = 0,4182
Parametr | Koeficient | Standardní chyba |
Konstanta | -9,324832 | 0.204506 |
Veteráni | -0,003528 | 0,055478 |
Věková skupina (25-29 let) | 0.679314 | 0,232493 |
Věková skupina (30-34) | 1.371085 | 0,217708 |
Věková skupina (35-39) | 1,939619 | 0,212062 |
Věková skupina (40-44) | 2,034323 | 0.216099 |
Věková skupina (45-49) | 2,726551 | 0.222221 |
Věková skupina (50-54) | 3,202873 | 0,220645 |
Věková skupina (55-59) | 3.716187 | 0,217775 |
Věková skupina (60-64 let) | 4,092676 | 0.217682 |
Věková skupina (65-69) | 4,23621 | 0,224224 |
Věková skupina (70+) | 4.363717 | 0,227374 |
Parametr | Škálovaná standardní chyba | Škálovaná Wald z | |
Konstanta | 0.145847 | -63,935674 | P < 0,0001 |
Veteráni | 0.039565 | -0,089162 | P = 0,929 |
Věková skupina (25-29 let) | 0.165806 | 4,097037 | P < 0,0001 |
Věková skupina (30-34) | 0.155262 | 8,830792 | P < 0,0001 |
Věková skupina (35-39) | 0.151235 | 12,825169 | P < 0,0001 |
Věková skupina (40-44) | 0.154115 | 13,200054 | P < 0,0001 |
Věková skupina (45-49) | 0.158481 | 17,204308 | P < 0,0001 |
Věková skupina (50-54) | 0.157357 | 20,354193 | P < 0,0001 |
Věková skupina (55-59) | 0.15531 | 23,927605 | P < 0,0001 |
Věková skupina (60-64) | 0.155243 | 26,362975 | P < 0,0001 |
Věková skupina (65-69) | 0.159909 | 26,491421 | P < 0,0001 |
Věková skupina (70+) | 0,162155 | 26,910733 | P < 0,0001 |
.