Poissonova regrese

Umístění v menu:

Tato funkce přizpůsobuje model Poissonovy regrese pro vícerozměrnou analýzu počtu neobvyklých událostí v kohortových studiích.

Multiplikativní model Poissonovy regrese je přizpůsoben jako log-lineární regrese (tj.Tj. logaritmická vazba a Poissonovo rozdělení chyb) s posunem rovným přirozenému logaritmu osobo-času, pokud je uveden osobo-čas (McCullagh a Nelder, 1989; Frome, 1983; Agresti, 2002). U multiplikativního Poissonova modelu se exponenty koeficientů rovnají poměru incidence (relativnímu riziku). Tato základní relativní rizika udávají hodnoty vztažené ke jmenovaným kovariátám pro celou populaci. Relativní rizika pro dílčí populaci můžete definovat vynásobením základního relativního rizika této dílčí populace relativními riziky způsobenými jinými skupinami kovariátů, například relativním rizikem úmrtí na rakovinu plic, pokud jste kuřák, který žil v oblasti s vysokým obsahem radonu. StatsDirect nabízí relativní rizika subpopulace pro dichotomické kovariáty.

Předpokládá se, že proměnná výsledku/odpovědi pochází z Poissonova rozdělení. Všimněte si, že Poissonovo rozdělení je rozdělení počtu událostí v pevném časovém intervalu za předpokladu, že se události vyskytují náhodně, nezávisle v čase a konstantní rychlostí. Poissonovo rozdělení se používá pro modelování událostí na jednotku prostoru i času, například počet částic na centimetr čtvereční.

Poissonovu regresi lze také použít pro logaritmické modelování dat z kontingenčních tabulek a pro multinomické modelování. Pro počty v kontingenční tabulce byste jako kovariáty vytvořili r + c indikátorových/směrodatných proměnných, které představují r řádků a c sloupců kontingenční tabulky:

r1c1 r1c2 r1c3
r2c1 r2c2 r2c3
r3c1 r3c2 r3c3
Response x_r1 x_r2 x_r3 x_c1 x_c2 x_c3
r1c1 1 0 0 1 0 0
r1c2 1 0 0 0 1 0
r1c3 1 0 0 0 0 0 1
r2c1 0 1 0 1 0 0
r2c2 0 1 0 0 1 0
r2c3 0 1 0 0 0 1
r3c1 0 0 1 1 0 0
r3c2 0 0 1 0 1 0
r3c3 0 0 1 0 0 0 1

Adekvátnost modelu

Pro posouzení adekvátnosti Poissonova regresního modelu je třeba se nejprve podívat na základní popisné statistiky pro data o počtu událostí. Pokud jsou průměr a rozptyl počtu velmi rozdílné (ekvivalentní v Poissonově rozdělení), pak je pravděpodobné, že model je příliš rozptýlený.

Volba analýzy modelu udává jako míru přílišného rozptylu parametr měřítka (sp); ten se rovná Pearsonově chí-kvadrát statistice dělené počtem pozorování minus počet parametrů (kovariát a interceptu). Rozptyly koeficientů lze upravit vynásobením sp. Statistiky testů dobré shody a reziduí lze upravit vydělením sp. Pomocí kvazi-pravděpodobnostního přístupu by sp mohl být integrován s regresí, ale to by předpokládalo známou pevnou hodnotu sp, což se stává jen zřídka. Lepším přístupem k příliš rozptýleným Poissonovým modelům je použití parametrického alternativního modelu, záporného binomického modelu.

Testovací statistika odchylky (poměru pravděpodobnosti), G², je nejužitečnějším shrnutím adekvátnosti fitovaného modelu. Představuje změnu odchylky mezi fitovaným modelem a modelem s konstantním členem a bez kovariát; proto se G² nepočítá, pokud není zadána žádná konstanta. Pokud je tento test významný, pak kovariáty významně přispívají k modelu.

Test dobré shody odchylky odráží shodu dat s Poissonovým rozdělením v regresi. Pokud je tento test významný, pak se u hodnoty P zobrazí červená hvězdička a měli byste zvážit jiné kovariáty a/nebo jiné rozdělení chyb, například negativní binomické.

StatsDirect nevylučuje/nevyřazuje kovariáty z Poissonovy regrese, pokud jsou vzájemně vysoce korelované. Modely, které nemají plný (rank = počet parametrů) rank, jsou za většiny okolností plně odhadnuty, ale obvykle byste měli zvážit kombinaci nebo vyloučení proměnných, případně vyloučení konstantního členu. Pokud se ocitnete v této situaci, měli byste vyhledat odborného statistika.

Technické ověření

Funkce odchylky je:

– kde y je počet událostí, n je počet pozorování a μ je fitovaný Poissonův průměr.

Funkce logaritmické věrohodnosti je:

Regrese maximální věrohodnosti probíhá iterativně převáženou metodou nejmenších čtverců s použitím rozkladu singulárních hodnot k řešení lineárního systému při každé iteraci, dokud změna odchylky není v rámci stanovené přesnosti.

Pearsonův chí-kvadrát reziduum je:

Pearsonova testovací statistika dobré shody je:

Reziduál odchylky je (Cook a Weisberg, 1982):

-kde D(pozorování, fit) je odchylka a sgn(x) je znaménko x.

Freeman-Tukeyho, rozptylově stabilizované, reziduum je (Freeman a Tukey, 1950):

Standardizované reziduum je:

– kde h je páka (diagonála matice Hat).

Příklad

Z Armitage et al. (2001):

Testovací sešit (Regresní list: Rakoviny, Subjekt-roky, Veteráni, Věková skupina).

Chcete-li analyzovat tato data pomocí programu StatsDirect, musíte nejprve otevřít testovací sešit pomocí funkce otevření souboru v nabídce souborů. Poté vytvořte sadu fiktivních proměnných, které budou představovat úrovně proměnné „Věková skupina“, pomocí funkce Dummy Variables v nabídce Data. Poté v části Regression and Correlation (Regrese a korelace) nabídky Analysis (Analýza) vyberte funkci Poisson. Klikněte na možnost „Counts of events and exposure (person-time) (Počty událostí a expozice (čas osoby)) a vyberte typ dat odpovědi jako „Individual“ (Jednotlivec). Po výzvě k zadání odpovědi vyberte sloupec označený „Cancancer“. Poté při dotazu na odpověď „Person-time“ (Čas osoby) vyberte možnost „Subject-years“ (Roky subjektu). Pak vyberte „Veteráni“, „Věková skupina (25-29 let)“ , „Věková skupina (30-34 let)“ atd. v jedné akci, když jste dotázáni na prediktory.

Pro tento příklad:

Poissonova regrese

Odchylka (poměr pravděpodobnosti) chí-kvadrát = 2067.700372 df = 11 P < 0,0001

Intercept b0 = -9,324832 z = -45.596773 P < 0,0001
Veterán b1 = -0,003528 z = -0.063587 P = 0,9493
Věková skupina (25-29 let) b2 = 0,679314 z = 2.921869 P = 0,0035
Věková skupina (30-34) b3 = 1,371085 z = 6.297824 P < 0,0001
Věková skupina (35-39) b4 = 1.939619 z = 9,14648 P < 0,0001
Věková skupina (40-44) b5 = 2.034323 z = 9,413835 P < 0,0001
Věková skupina (45-49) b6 = 2,726551 z = 12,269534 P < 0.0001
Věková skupina (50-54) b7 = 3,202873 z = 14,515926 P < 0.0001
Věková skupina (55-59) b8 = 3,716187 z = 17,064363 P < 0.0001
Věková skupina (60-64) b9 = 4,092676 z = 18.801188 P < 0,0001
Věková skupina (65-69) b10 = 4,23621 z = 18.892791 P < 0,0001
Věková skupina (70+) b11 = 4,363717 z = 19.19183 P < 0,0001

log Cancers = -9,324832 -0,003528 Veterans +0.679314 Věková skupina (25-29) +1,371085 Věková skupina (30-34) +1,939619 Věková skupina (35-39) +2,034323 Věková skupina (40-44) +2,726551 Věková skupina (45-49) +3,202873 Věková skupina (50-54) +3,716187 Věková skupina (55-59) +4,092676 Věková skupina (60-64) +4,23621 Věková skupina (65-69) +4.363717 Věková skupina (70+)

Poissonova regrese – poměry incidence

Inferenční populace: celá studie (základní riziko)

Parametr Odhad IRR 95% CI
Veteráni -0.003528 0,996479 0,89381 až 1,11094
Věková skupina (25-29 let) 0,679314 1,972524 1,250616 až 3.111147
Věková skupina (30-34) 1,371085 3,939622 2,571233 až 6,036256
Věková skupina (35-39) 1.939619 6,956098 4,590483 až 10,540786
Věková skupina (40-44) 2.034323 7,647073 5,006696 až 11,679905
Věková skupina (45-49) 2.726551 15,280093 9,884869 až 23,620062
Věková skupina (50-54) 3.202873 24,60311 15,96527 až 37,914362
Věková skupina (55-59) 3.716187 41,107367 26,825601 až 62,992647
Věková skupina (60-64) 4,092676 59,899957 39,096281 až 91.773558
Věková skupina (65-69) 4,23621 69,145275 44,555675 až 107.305502
Věková skupina (70+) 4,363717 78,54856 50,303407 až 122.653248

Poissonova regrese – analýza modelu

Přesnost = 1,00E-07

Log likelihood se všemi kovariátami = -66,006668

Odchylka se všemi kovariátami = 5.217124, df = 10, rank = 12

Akaikeho informační kritérium = 29,217124

Schwartzovo informační kritérium = 45,400676

Deviance bez kovariát = 2072,917496

Deviance (poměr pravděpodobnosti, G²) = 2067.700372, df = 11, P < 0,0001

Pseudo (McFadden) R-kvadrát = 0,997483

Pseudo (likelihood ratio index) R-kvadrát = 0,939986

Pearson goodness of fit = 5,086063, df = 10, P = 0.8854

Deviance goodness of fit = 5,217124, df = 10, P = 0,8762

Parametr stupnice nadměrného rozptylu = 0.508606

Škála G² = 4065,424363, df = 11, P < 0,0001

Škála Pearsonova dobrá shoda = 10, df = 10, P = 0.4405

Scaled Deviance goodness of fit = 10,257687, df = 10, P = 0,4182

Parametr Koeficient Standardní chyba
Konstanta -9,324832 0.204506
Veteráni -0,003528 0,055478
Věková skupina (25-29 let) 0.679314 0,232493
Věková skupina (30-34) 1.371085 0,217708
Věková skupina (35-39) 1,939619 0,212062
Věková skupina (40-44) 2,034323 0.216099
Věková skupina (45-49) 2,726551 0.222221
Věková skupina (50-54) 3,202873 0,220645
Věková skupina (55-59) 3.716187 0,217775
Věková skupina (60-64 let) 4,092676 0.217682
Věková skupina (65-69) 4,23621 0,224224
Věková skupina (70+) 4.363717 0,227374
Parametr Škálovaná standardní chyba Škálovaná Wald z
Konstanta 0.145847 -63,935674 P < 0,0001
Veteráni 0.039565 -0,089162 P = 0,929
Věková skupina (25-29 let) 0.165806 4,097037 P < 0,0001
Věková skupina (30-34) 0.155262 8,830792 P < 0,0001
Věková skupina (35-39) 0.151235 12,825169 P < 0,0001
Věková skupina (40-44) 0.154115 13,200054 P < 0,0001
Věková skupina (45-49) 0.158481 17,204308 P < 0,0001
Věková skupina (50-54) 0.157357 20,354193 P < 0,0001
Věková skupina (55-59) 0.15531 23,927605 P < 0,0001
Věková skupina (60-64) 0.155243 26,362975 P < 0,0001
Věková skupina (65-69) 0.159909 26,491421 P < 0,0001
Věková skupina (70+) 0,162155 26,910733 P < 0,0001

.

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna.