Poisson Regression (Incidence Rate Ratio)

Menu location: Analiza_Regresja i Korelacja_Poisson

Funkcja ta dopasowuje model regresji Poissona do wielowariantowej analizy liczb zdarzeń nieczęstych w badaniach kohortowych.

Multiplikatywny model regresji Poissona jest dopasowywany jako regresja log-liniowa (i.tj. związek logiczny i rozkład błędu Poissona), z przesunięciem równym logarytmowi naturalnemu czasu osobowego, jeśli czas osobowy jest określony (McCullagh i Nelder, 1989; Frome, 1983; Agresti, 2002). W multiplikatywnym modelu Poissona, wykładniki współczynników są równe współczynnikowi zapadalności (ryzyko względne). Te bazowe ryzyka względne podają wartości w odniesieniu do nazwanych zmiennych dla całej populacji. Można zdefiniować ryzyko względne dla subpopulacji przez pomnożenie bazowego ryzyka względnego tej subpopulacji przez ryzyko względne wynikające z innych grup kowariancji, np. względne ryzyko zgonu z powodu raka płuc dla osoby palącej, która mieszkała w obszarze o wysokim stężeniu radonu. StatsDirect oferuje subpopulacyjne ryzyka względne dla dychotomicznych zmiennych kowariantnych.

Zakłada się, że zmienna wyniku/odpowiedzi pochodzi z rozkładu Poissona. Należy zauważyć, że rozkład Poissona jest rozkładem liczby zdarzeń w ustalonym przedziale czasu, pod warunkiem, że zdarzenia występują losowo, niezależnie w czasie i w stałym tempie. Rozkłady Poissona są używane do modelowania zdarzeń na jednostkę przestrzeni, jak również czasu, na przykład liczba cząstek na centymetr kwadratowy.

Regresja Poissona może być również używana do modelowania logarytmiczno-liniowego danych tabeli kontyngencji oraz do modelowania wielomianowego. W przypadku zliczeń tabeli kontyngencji utworzyłbyś r + c zmiennych wskaźnikowych/dummy jako zmiennych, reprezentujących wiersze i kolumny c tabeli kontyngencji:

r1c1	r1c2	r1c3
r2c1	r2c2	r2c3
r3c1	r3c2	r3c3

odpowiedź	x_r1	x_r2	x_r3	x_c1	x_c2	x_c3
r1c1	1	r1c3	1	0	0	0	0	1
r2c1	0	1	0	1	0	0	0
r2c2	0	1	0	0	1	0
r2c3	0	1	0	0	0	1
r3c1	0	0	0	1	1	0	0
r3c2	0	0	1	0	1	0
r3c3	0	0	0	1	0	0	1

Adekwatność modelu

Aby ocenić adekwatność modelu regresji Poissona, należy najpierw przyjrzeć się podstawowym statystykom opisowym dla danych dotyczących liczby zdarzeń. Jeśli średnia i wariancja zliczeń są bardzo różne (równoważne w rozkładzie Poissona), wówczas model prawdopodobnie jest nadmiernie rozproszony.

Opcja analizy modelu podaje parametr skali (sp) jako miarę nadmiernego rozproszenia; jest on równy statystyce chi kwadrat Pearsona podzielonej przez liczbę obserwacji minus liczba parametrów (zmiennych i punktu przecięcia). Wariancje współczynników można skorygować, mnożąc je przez sp. Statystyki testu dobroci dopasowania i reszty można skorygować, dzieląc je przez sp. Stosując podejście quasi-prawdopodobieństwa, sp można by zintegrować z regresją, ale zakładałoby to znaną stałą wartość sp, co rzadko ma miejsce. Lepszym podejściem do nadmiernie rozproszonych modeli Poissona jest użycie alternatywnego modelu parametrycznego, ujemnego dwumianu.

Statystyka testu dewiancji (współczynnika prawdopodobieństwa), G², jest najbardziej użytecznym podsumowaniem adekwatności dopasowanego modelu. Przedstawia ona zmianę w odchyleniu między dopasowanym modelem a modelem ze stałym terminem i bez zmiennych; dlatego G² nie jest obliczana, jeśli nie określono stałej. Jeśli ten test jest znaczący, wówczas zmienne mają znaczący wkład w model.

Test dobroci dopasowania dewiancji odzwierciedla dopasowanie danych do rozkładu Poissona w regresji. Jeśli ten test jest znaczący, wtedy czerwona gwiazdka jest pokazana przy wartości P i powinieneś rozważyć inne zmienne i/lub inne rozkłady błędów, takie jak ujemny dwumianowy.

StatsDirect nie wyklucza/odrzuca zmiennych z regresji Poissona, jeśli są one wysoce skorelowane ze sobą. Modele, które nie mają pełnej rangi (ranga = liczba parametrów) są w pełni oszacowane w większości przypadków, ale zazwyczaj należy rozważyć połączenie lub wykluczenie zmiennych, lub ewentualnie wykluczenie stałej składowej. Jeśli znajdziesz się w takiej sytuacji, powinieneś skorzystać z pomocy eksperta statystycznego.

Weryfikacja techniczna

Funkcja odchylenia to:

– gdzie y to liczba zdarzeń, n to liczba obserwacji, a μ to dopasowana średnia Poissona.

Funkcja log-likelihood wynosi:

Regresja z maksymalnym prawdopodobieństwem jest realizowana przez iteracyjne ponowne ważenie najmniejszych kwadratów, przy użyciu rozkładu wartości pojedynczych do rozwiązania układu liniowego w każdej iteracji, aż zmiana odchylenia mieści się w określonej dokładności.

Reszta chi kwadrat Pearsona wynosi:

Statystyka testu dobroci dopasowania Pearsona wynosi:

Reszta dewiancji wynosi (Cook i Weisberg, 1982):

– gdzie D(observation, fit) to dewiancja, a sgn(x) to znak x.

Reszta Freemana-Tukey’a, ustabilizowana wariancją, wynosi (Freeman i Tukey, 1950):

Reszta standaryzowana wynosi:

– gdzie h jest dźwignią (przekątna macierzy Hat).

Przykład

Z Armitage et al. (2001):

Testowy skoroszyt roboczy (arkusz Regression: Cancers, Subject-years, Veterans, Age group).

Aby przeanalizować te dane za pomocą StatsDirect, musisz najpierw otworzyć testowy skoroszyt roboczy za pomocą funkcji otwarcia pliku z menu Plik. Następnie wygenerować zestaw zmiennych dummy reprezentujących poziomy zmiennej „Grupa wiekowa” używając funkcji Dummy Variables z menu Data. Następnie wybierz opcję Poisson z sekcji Regresja i korelacja w menu Analiza. Kliknij na opcję „Liczby zdarzeń i ekspozycji (czas osobowy)” i wybierz typ danych odpowiedzi jako „Indywidualny”. Wybierz kolumnę oznaczoną „Nowotwory”, gdy zostaniesz poproszony o odpowiedź. Następnie wybierz „Subject-years”, gdy zostaniesz poproszony o czas osobowy. Następnie wybierz „Weterani”, „Grupa wiekowa (25-29)” , „Grupa wiekowa (30-34)” itd. w jednym działaniu, gdy zostaniesz poproszony o predyktory.

Dla tego przykładu:

Regresja Poissona

Odchylenie (współczynnik prawdopodobieństwa) chi-square = 2067.700372 df = 11 P < 0.0001

Intercept	b0 = -9.324832	z = -45.596773	P < 0.0001
Weterani	b1 = -0.003528	z = -0.063587	P = 0.9493
Grupa wiekowa (25-29)	b2 = 0.679314	z = 2.921869	P = 0.0035
Grupa wiekowa (30-34)	b3 = 1.371085	z = 6.297824	P < 0,0001
Grupa wiekowa (35-39)	b4 = 1.939619	z = 9.14648	P < 0.0001
Grupa wiekowa (40-44)	b5 = 2.034323	z = 9.413835	P < 0.0001
Grupa wiekowa (45-49)	b6 = 2.726551	z = 12.269534	P < 0.0001
Grupa wiekowa (50-54)	b7 = 3.202873	z = 14.515926	P < 0.0001
Grupa wiekowa (55-59)	b8 = 3.716187	z = 17.064363	P < 0.0001
Grupa wiekowa (60-64)	b9 = 4.092676	z = 18.801188	P < 0,0001
Grupa wiekowa (65-69)	b10 = 4,23621	z = 18.892791	P < 0,0001
Grupa wiekowa (70+)	b11 = 4,363717	z = 19.19183	P < 0,0001

log Cancers = -9,324832 -0,003528 Veterans +0.679314 Grupa wiekowa (25-29) +1.371085 Grupa wiekowa (30-34) +1.939619 Grupa wiekowa (35-39) +2.034323 Grupa wiekowa (40-44) +2.726551 Grupa wiekowa (45-49) +3.202873 Grupa wiekowa (50-54) +3.716187 Grupa wiekowa (55-59) +4.092676 Grupa wiekowa (60-64) +4.23621 Grupa wiekowa (65-69) +4.363717 Grupa wiekowa (70+)

Regresja Poissona – współczynniki zapadalności

Populacja wnioskowania: całe badanie (ryzyko bazowe)

Parametr	Estymacja	IRR	95% CI
Veterans	-0.003528	0.996479	0.89381 do 1.11094
Grupa wiekowa (25-29)	0.679314	1.972524	1.250616 do 3.111147
Grupa wiekowa (30-34)	1.371085	3.939622	2.571233 do 6.036256
Grupa wiekowa (35-39)	1.939619	6.956098	4.590483 do 10.540786
Grupa wiekowa (40-44)	2.034323	7.647073	5.006696 do 11.679905
Grupa wiekowa (45-49)	2.726551	15.280093	9.884869 do 23.620062
Grupa wiekowa (50-54)	3.202873	24.60311	15.96527 do 37.914362
Grupa wiekowa (55-59)	3.716187	41.107367	26.825601 do 62.992647
Grupa wiekowa (60-64)	4.092676	59.899957	39.096281 do 91.773558
Grupa wiekowa (65-69)	4.23621	69.145275	44.555675 do 107.305502
Grupa wiekowa (70+)	4.363717	78.54856	50.303407 do 122.653248

Regresja Poissona – analiza modelu

Accuracy = 1.00E-07

Log likelihood with all covariates = -66.006668

Deviance with all covariates = 5.217124, df = 10, rank = 12

Kryterium informacyjne Akaike’a = 29.217124

Kryterium informacyjne Schwartza = 45.400676

Deviance with no covariates = 2072.917496

Deviance (likelihood ratio, G²) = 2067.700372, df = 11, P < 0.0001

Pseudo (McFadden) R-square = 0.997483

Pseudo (likelihood ratio index) R-square = 0.939986

Pearson goodness of fit = 5.086063, df = 10, P = 0.8854

Deviance goodness of fit = 5.217124, df = 10, P = 0.8762

Over-dispersion scale parameter = 0.508606

Scaled G² = 4065.424363, df = 11, P < 0.0001

Scaled Pearson goodness of fit = 10, df = 10, P = 0.4405

Scaled Deviance goodness of fit = 10.257687, df = 10, P = 0.4182

Parametr	Współczynnik	Błąd standardowy
Stała	-9.324832	0.204506
Weterani	-0.003528	0.055478
Grupa wiekowa (25-29)	0.679314	0.232493
Grupa wiekowa (30-34)	1.371085	0.217708
Grupa wiekowa (35-39)	1.939619	0.212062
Grupa wiekowa (40-44)	2.034323	0.216099
Grupa wiekowa (45-49)	2.726551	0.222221
Grupa wiekowa (50-54)	3.202873	0.220645
Grupa wiekowa (55-59)	3.716187	0.217775
Grupa wiekowa (60-64)	4.092676	0.217682
Grupa wiekowa (65-69)	4.23621	0.224224
Grupa wiekowa (70+)	4.363717	0.227374

Parametr	Skalowany błąd standardowy	Skalowany wald z
Stała	0.145847	-63.935674	P < 0.0001
Weterani	0.039565	-0.089162	P = 0.929
Grupa wiekowa (25-29)	0.165806	4.097037	P < 0.0001
Grupa wiekowa (30-34)	0.155262	8.830792	P < 0.0001
Grupa wiekowa (35-39)	0.151235	12.825169	P < 0.0001
Grupa wiekowa (40-44)	0.154115	13.200054	P < 0.0001
Grupa wiekowa (45-49)	0.158481	17.204308	P < 0.0001
Grupa wiekowa (50-54)	0.157357	20.354193	P < 0.0001
Grupa wiekowa (55-59)	0.15531	23,927605	P < 0,0001
Grupa wiekowa (60-64)	0.155243	26.362975	P < 0.0001
Grupa wiekowa (65-69)	0.159909	26.491421	P < 0.0001
Grupa wiekowa (70+)	0.162155	26.910733	P < 0.0001

Dodaj komentarz Anuluj pisanie odpowiedzi