Poisson Regression

Menu location: Analiza_Regresja i Korelacja_Poisson

Funkcja ta dopasowuje model regresji Poissona do wielowariantowej analizy liczb zdarzeń nieczęstych w badaniach kohortowych.

Multiplikatywny model regresji Poissona jest dopasowywany jako regresja log-liniowa (i.tj. związek logiczny i rozkład błędu Poissona), z przesunięciem równym logarytmowi naturalnemu czasu osobowego, jeśli czas osobowy jest określony (McCullagh i Nelder, 1989; Frome, 1983; Agresti, 2002). W multiplikatywnym modelu Poissona, wykładniki współczynników są równe współczynnikowi zapadalności (ryzyko względne). Te bazowe ryzyka względne podają wartości w odniesieniu do nazwanych zmiennych dla całej populacji. Można zdefiniować ryzyko względne dla subpopulacji przez pomnożenie bazowego ryzyka względnego tej subpopulacji przez ryzyko względne wynikające z innych grup kowariancji, np. względne ryzyko zgonu z powodu raka płuc dla osoby palącej, która mieszkała w obszarze o wysokim stężeniu radonu. StatsDirect oferuje subpopulacyjne ryzyka względne dla dychotomicznych zmiennych kowariantnych.

Zakłada się, że zmienna wyniku/odpowiedzi pochodzi z rozkładu Poissona. Należy zauważyć, że rozkład Poissona jest rozkładem liczby zdarzeń w ustalonym przedziale czasu, pod warunkiem, że zdarzenia występują losowo, niezależnie w czasie i w stałym tempie. Rozkłady Poissona są używane do modelowania zdarzeń na jednostkę przestrzeni, jak również czasu, na przykład liczba cząstek na centymetr kwadratowy.

Regresja Poissona może być również używana do modelowania logarytmiczno-liniowego danych tabeli kontyngencji oraz do modelowania wielomianowego. W przypadku zliczeń tabeli kontyngencji utworzyłbyś r + c zmiennych wskaźnikowych/dummy jako zmiennych, reprezentujących wiersze i kolumny c tabeli kontyngencji:

.

.

r1c1 r1c2 r1c3
r2c1 r2c2 r2c3
r3c1 r3c2 r3c3

.

.

.

.

odpowiedź x_r1 x_r2 x_r3 x_c1 x_c2 x_c3
r1c1 1 r1c3 1 0 0 0 0 1
r2c1 0 1 0 1 0 0 0
r2c2 0 1 0 0 1 0
r2c3 0 1 0 0 0 1
r3c1 0 0 0 1 1 0 0
r3c2 0 0 1 0 1 0
r3c3 0 0 0 1 0 0 1

Adekwatność modelu

Aby ocenić adekwatność modelu regresji Poissona, należy najpierw przyjrzeć się podstawowym statystykom opisowym dla danych dotyczących liczby zdarzeń. Jeśli średnia i wariancja zliczeń są bardzo różne (równoważne w rozkładzie Poissona), wówczas model prawdopodobnie jest nadmiernie rozproszony.

Opcja analizy modelu podaje parametr skali (sp) jako miarę nadmiernego rozproszenia; jest on równy statystyce chi kwadrat Pearsona podzielonej przez liczbę obserwacji minus liczba parametrów (zmiennych i punktu przecięcia). Wariancje współczynników można skorygować, mnożąc je przez sp. Statystyki testu dobroci dopasowania i reszty można skorygować, dzieląc je przez sp. Stosując podejście quasi-prawdopodobieństwa, sp można by zintegrować z regresją, ale zakładałoby to znaną stałą wartość sp, co rzadko ma miejsce. Lepszym podejściem do nadmiernie rozproszonych modeli Poissona jest użycie alternatywnego modelu parametrycznego, ujemnego dwumianu.

Statystyka testu dewiancji (współczynnika prawdopodobieństwa), G², jest najbardziej użytecznym podsumowaniem adekwatności dopasowanego modelu. Przedstawia ona zmianę w odchyleniu między dopasowanym modelem a modelem ze stałym terminem i bez zmiennych; dlatego G² nie jest obliczana, jeśli nie określono stałej. Jeśli ten test jest znaczący, wówczas zmienne mają znaczący wkład w model.

Test dobroci dopasowania dewiancji odzwierciedla dopasowanie danych do rozkładu Poissona w regresji. Jeśli ten test jest znaczący, wtedy czerwona gwiazdka jest pokazana przy wartości P i powinieneś rozważyć inne zmienne i/lub inne rozkłady błędów, takie jak ujemny dwumianowy.

StatsDirect nie wyklucza/odrzuca zmiennych z regresji Poissona, jeśli są one wysoce skorelowane ze sobą. Modele, które nie mają pełnej rangi (ranga = liczba parametrów) są w pełni oszacowane w większości przypadków, ale zazwyczaj należy rozważyć połączenie lub wykluczenie zmiennych, lub ewentualnie wykluczenie stałej składowej. Jeśli znajdziesz się w takiej sytuacji, powinieneś skorzystać z pomocy eksperta statystycznego.

Weryfikacja techniczna

Funkcja odchylenia to:

– gdzie y to liczba zdarzeń, n to liczba obserwacji, a μ to dopasowana średnia Poissona.

Funkcja log-likelihood wynosi:

Regresja z maksymalnym prawdopodobieństwem jest realizowana przez iteracyjne ponowne ważenie najmniejszych kwadratów, przy użyciu rozkładu wartości pojedynczych do rozwiązania układu liniowego w każdej iteracji, aż zmiana odchylenia mieści się w określonej dokładności.

Reszta chi kwadrat Pearsona wynosi:

Statystyka testu dobroci dopasowania Pearsona wynosi:

Reszta dewiancji wynosi (Cook i Weisberg, 1982):

– gdzie D(observation, fit) to dewiancja, a sgn(x) to znak x.

Reszta Freemana-Tukey’a, ustabilizowana wariancją, wynosi (Freeman i Tukey, 1950):

Reszta standaryzowana wynosi:

– gdzie h jest dźwignią (przekątna macierzy Hat).

Przykład

Z Armitage et al. (2001):

Testowy skoroszyt roboczy (arkusz Regression: Cancers, Subject-years, Veterans, Age group).

Aby przeanalizować te dane za pomocą StatsDirect, musisz najpierw otworzyć testowy skoroszyt roboczy za pomocą funkcji otwarcia pliku z menu Plik. Następnie wygenerować zestaw zmiennych dummy reprezentujących poziomy zmiennej „Grupa wiekowa” używając funkcji Dummy Variables z menu Data. Następnie wybierz opcję Poisson z sekcji Regresja i korelacja w menu Analiza. Kliknij na opcję „Liczby zdarzeń i ekspozycji (czas osobowy)” i wybierz typ danych odpowiedzi jako „Indywidualny”. Wybierz kolumnę oznaczoną „Nowotwory”, gdy zostaniesz poproszony o odpowiedź. Następnie wybierz „Subject-years”, gdy zostaniesz poproszony o czas osobowy. Następnie wybierz „Weterani”, „Grupa wiekowa (25-29)” , „Grupa wiekowa (30-34)” itd. w jednym działaniu, gdy zostaniesz poproszony o predyktory.

Dla tego przykładu:

Regresja Poissona

Odchylenie (współczynnik prawdopodobieństwa) chi-square = 2067.700372 df = 11 P < 0.0001

Intercept b0 = -9.324832 z = -45.596773 P < 0.0001
Weterani b1 = -0.003528 z = -0.063587 P = 0.9493
Grupa wiekowa (25-29) b2 = 0.679314 z = 2.921869 P = 0.0035
Grupa wiekowa (30-34) b3 = 1.371085 z = 6.297824 P < 0,0001
Grupa wiekowa (35-39) b4 = 1.939619 z = 9.14648 P < 0.0001
Grupa wiekowa (40-44) b5 = 2.034323 z = 9.413835 P < 0.0001
Grupa wiekowa (45-49) b6 = 2.726551 z = 12.269534 P < 0.0001
Grupa wiekowa (50-54) b7 = 3.202873 z = 14.515926 P < 0.0001
Grupa wiekowa (55-59) b8 = 3.716187 z = 17.064363 P < 0.0001
Grupa wiekowa (60-64) b9 = 4.092676 z = 18.801188 P < 0,0001
Grupa wiekowa (65-69) b10 = 4,23621 z = 18.892791 P < 0,0001
Grupa wiekowa (70+) b11 = 4,363717 z = 19.19183 P < 0,0001

log Cancers = -9,324832 -0,003528 Veterans +0.679314 Grupa wiekowa (25-29) +1.371085 Grupa wiekowa (30-34) +1.939619 Grupa wiekowa (35-39) +2.034323 Grupa wiekowa (40-44) +2.726551 Grupa wiekowa (45-49) +3.202873 Grupa wiekowa (50-54) +3.716187 Grupa wiekowa (55-59) +4.092676 Grupa wiekowa (60-64) +4.23621 Grupa wiekowa (65-69) +4.363717 Grupa wiekowa (70+)

Regresja Poissona – współczynniki zapadalności

Populacja wnioskowania: całe badanie (ryzyko bazowe)

Parametr Estymacja IRR 95% CI
Veterans -0.003528 0.996479 0.89381 do 1.11094
Grupa wiekowa (25-29) 0.679314 1.972524 1.250616 do 3.111147
Grupa wiekowa (30-34) 1.371085 3.939622 2.571233 do 6.036256
Grupa wiekowa (35-39) 1.939619 6.956098 4.590483 do 10.540786
Grupa wiekowa (40-44) 2.034323 7.647073 5.006696 do 11.679905
Grupa wiekowa (45-49) 2.726551 15.280093 9.884869 do 23.620062
Grupa wiekowa (50-54) 3.202873 24.60311 15.96527 do 37.914362
Grupa wiekowa (55-59) 3.716187 41.107367 26.825601 do 62.992647
Grupa wiekowa (60-64) 4.092676 59.899957 39.096281 do 91.773558
Grupa wiekowa (65-69) 4.23621 69.145275 44.555675 do 107.305502
Grupa wiekowa (70+) 4.363717 78.54856 50.303407 do 122.653248

Regresja Poissona – analiza modelu

Accuracy = 1.00E-07

Log likelihood with all covariates = -66.006668

Deviance with all covariates = 5.217124, df = 10, rank = 12

Kryterium informacyjne Akaike’a = 29.217124

Kryterium informacyjne Schwartza = 45.400676

Deviance with no covariates = 2072.917496

Deviance (likelihood ratio, G²) = 2067.700372, df = 11, P < 0.0001

Pseudo (McFadden) R-square = 0.997483

Pseudo (likelihood ratio index) R-square = 0.939986

Pearson goodness of fit = 5.086063, df = 10, P = 0.8854

Deviance goodness of fit = 5.217124, df = 10, P = 0.8762

Over-dispersion scale parameter = 0.508606

Scaled G² = 4065.424363, df = 11, P < 0.0001

Scaled Pearson goodness of fit = 10, df = 10, P = 0.4405

Scaled Deviance goodness of fit = 10.257687, df = 10, P = 0.4182

Parametr Współczynnik Błąd standardowy
Stała -9.324832 0.204506
Weterani -0.003528 0.055478
Grupa wiekowa (25-29) 0.679314 0.232493
Grupa wiekowa (30-34) 1.371085 0.217708
Grupa wiekowa (35-39) 1.939619 0.212062
Grupa wiekowa (40-44) 2.034323 0.216099
Grupa wiekowa (45-49) 2.726551 0.222221
Grupa wiekowa (50-54) 3.202873 0.220645
Grupa wiekowa (55-59) 3.716187 0.217775
Grupa wiekowa (60-64) 4.092676 0.217682
Grupa wiekowa (65-69) 4.23621 0.224224
Grupa wiekowa (70+) 4.363717 0.227374
Parametr Skalowany błąd standardowy Skalowany wald z
Stała 0.145847 -63.935674 P < 0.0001
Weterani 0.039565 -0.089162 P = 0.929
Grupa wiekowa (25-29) 0.165806 4.097037 P < 0.0001
Grupa wiekowa (30-34) 0.155262 8.830792 P < 0.0001
Grupa wiekowa (35-39) 0.151235 12.825169 P < 0.0001
Grupa wiekowa (40-44) 0.154115 13.200054 P < 0.0001
Grupa wiekowa (45-49) 0.158481 17.204308 P < 0.0001
Grupa wiekowa (50-54) 0.157357 20.354193 P < 0.0001
Grupa wiekowa (55-59) 0.15531 23,927605 P < 0,0001
Grupa wiekowa (60-64) 0.155243 26.362975 P < 0.0001
Grupa wiekowa (65-69) 0.159909 26.491421 P < 0.0001
Grupa wiekowa (70+) 0.162155 26.910733 P < 0.0001

.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany.