Menu location: Analiza_Regresja i Korelacja_Poisson
Funkcja ta dopasowuje model regresji Poissona do wielowariantowej analizy liczb zdarzeń nieczęstych w badaniach kohortowych.
Multiplikatywny model regresji Poissona jest dopasowywany jako regresja log-liniowa (i.tj. związek logiczny i rozkład błędu Poissona), z przesunięciem równym logarytmowi naturalnemu czasu osobowego, jeśli czas osobowy jest określony (McCullagh i Nelder, 1989; Frome, 1983; Agresti, 2002). W multiplikatywnym modelu Poissona, wykładniki współczynników są równe współczynnikowi zapadalności (ryzyko względne). Te bazowe ryzyka względne podają wartości w odniesieniu do nazwanych zmiennych dla całej populacji. Można zdefiniować ryzyko względne dla subpopulacji przez pomnożenie bazowego ryzyka względnego tej subpopulacji przez ryzyko względne wynikające z innych grup kowariancji, np. względne ryzyko zgonu z powodu raka płuc dla osoby palącej, która mieszkała w obszarze o wysokim stężeniu radonu. StatsDirect oferuje subpopulacyjne ryzyka względne dla dychotomicznych zmiennych kowariantnych.
Zakłada się, że zmienna wyniku/odpowiedzi pochodzi z rozkładu Poissona. Należy zauważyć, że rozkład Poissona jest rozkładem liczby zdarzeń w ustalonym przedziale czasu, pod warunkiem, że zdarzenia występują losowo, niezależnie w czasie i w stałym tempie. Rozkłady Poissona są używane do modelowania zdarzeń na jednostkę przestrzeni, jak również czasu, na przykład liczba cząstek na centymetr kwadratowy.
Regresja Poissona może być również używana do modelowania logarytmiczno-liniowego danych tabeli kontyngencji oraz do modelowania wielomianowego. W przypadku zliczeń tabeli kontyngencji utworzyłbyś r + c zmiennych wskaźnikowych/dummy jako zmiennych, reprezentujących wiersze i kolumny c tabeli kontyngencji:
r1c1 | r1c2 | r1c3 |
r2c1 | r2c2 | r2c3 |
r3c1 | r3c2 | r3c3 |
odpowiedź | x_r1 | x_r2 | x_r3 | x_c1 | x_c2 | x_c3 | ||
r1c1 | 1 | r1c3 | 1 | 0 | 0 | 0 | 0 | 1 |
r2c1 | 0 | 1 | 0 | 1 | 0 | 0 | 0 | |
r2c2 | 0 | 1 | 0 | 0 | 1 | 0 | ||
r2c3 | 0 | 1 | 0 | 0 | 0 | 1 | ||
r3c1 | 0 | 0 | 0 | 1 | 1 | 0 | 0 | |
r3c2 | 0 | 0 | 1 | 0 | 1 | 0 | ||
r3c3 | 0 | 0 | 0 | 1 | 0 | 0 | 1 |
Adekwatność modelu
Aby ocenić adekwatność modelu regresji Poissona, należy najpierw przyjrzeć się podstawowym statystykom opisowym dla danych dotyczących liczby zdarzeń. Jeśli średnia i wariancja zliczeń są bardzo różne (równoważne w rozkładzie Poissona), wówczas model prawdopodobnie jest nadmiernie rozproszony.
Opcja analizy modelu podaje parametr skali (sp) jako miarę nadmiernego rozproszenia; jest on równy statystyce chi kwadrat Pearsona podzielonej przez liczbę obserwacji minus liczba parametrów (zmiennych i punktu przecięcia). Wariancje współczynników można skorygować, mnożąc je przez sp. Statystyki testu dobroci dopasowania i reszty można skorygować, dzieląc je przez sp. Stosując podejście quasi-prawdopodobieństwa, sp można by zintegrować z regresją, ale zakładałoby to znaną stałą wartość sp, co rzadko ma miejsce. Lepszym podejściem do nadmiernie rozproszonych modeli Poissona jest użycie alternatywnego modelu parametrycznego, ujemnego dwumianu.
Statystyka testu dewiancji (współczynnika prawdopodobieństwa), G², jest najbardziej użytecznym podsumowaniem adekwatności dopasowanego modelu. Przedstawia ona zmianę w odchyleniu między dopasowanym modelem a modelem ze stałym terminem i bez zmiennych; dlatego G² nie jest obliczana, jeśli nie określono stałej. Jeśli ten test jest znaczący, wówczas zmienne mają znaczący wkład w model.
Test dobroci dopasowania dewiancji odzwierciedla dopasowanie danych do rozkładu Poissona w regresji. Jeśli ten test jest znaczący, wtedy czerwona gwiazdka jest pokazana przy wartości P i powinieneś rozważyć inne zmienne i/lub inne rozkłady błędów, takie jak ujemny dwumianowy.
StatsDirect nie wyklucza/odrzuca zmiennych z regresji Poissona, jeśli są one wysoce skorelowane ze sobą. Modele, które nie mają pełnej rangi (ranga = liczba parametrów) są w pełni oszacowane w większości przypadków, ale zazwyczaj należy rozważyć połączenie lub wykluczenie zmiennych, lub ewentualnie wykluczenie stałej składowej. Jeśli znajdziesz się w takiej sytuacji, powinieneś skorzystać z pomocy eksperta statystycznego.
Weryfikacja techniczna
Funkcja odchylenia to:
– gdzie y to liczba zdarzeń, n to liczba obserwacji, a μ to dopasowana średnia Poissona.
Funkcja log-likelihood wynosi:
Regresja z maksymalnym prawdopodobieństwem jest realizowana przez iteracyjne ponowne ważenie najmniejszych kwadratów, przy użyciu rozkładu wartości pojedynczych do rozwiązania układu liniowego w każdej iteracji, aż zmiana odchylenia mieści się w określonej dokładności.
Reszta chi kwadrat Pearsona wynosi:
Statystyka testu dobroci dopasowania Pearsona wynosi:
Reszta dewiancji wynosi (Cook i Weisberg, 1982):
– gdzie D(observation, fit) to dewiancja, a sgn(x) to znak x.
Reszta Freemana-Tukey’a, ustabilizowana wariancją, wynosi (Freeman i Tukey, 1950):
Reszta standaryzowana wynosi:
– gdzie h jest dźwignią (przekątna macierzy Hat).
Przykład
Z Armitage et al. (2001):
Testowy skoroszyt roboczy (arkusz Regression: Cancers, Subject-years, Veterans, Age group).
Aby przeanalizować te dane za pomocą StatsDirect, musisz najpierw otworzyć testowy skoroszyt roboczy za pomocą funkcji otwarcia pliku z menu Plik. Następnie wygenerować zestaw zmiennych dummy reprezentujących poziomy zmiennej „Grupa wiekowa” używając funkcji Dummy Variables z menu Data. Następnie wybierz opcję Poisson z sekcji Regresja i korelacja w menu Analiza. Kliknij na opcję „Liczby zdarzeń i ekspozycji (czas osobowy)” i wybierz typ danych odpowiedzi jako „Indywidualny”. Wybierz kolumnę oznaczoną „Nowotwory”, gdy zostaniesz poproszony o odpowiedź. Następnie wybierz „Subject-years”, gdy zostaniesz poproszony o czas osobowy. Następnie wybierz „Weterani”, „Grupa wiekowa (25-29)” , „Grupa wiekowa (30-34)” itd. w jednym działaniu, gdy zostaniesz poproszony o predyktory.
Dla tego przykładu:
Regresja Poissona
Odchylenie (współczynnik prawdopodobieństwa) chi-square = 2067.700372 df = 11 P < 0.0001
Intercept | b0 = -9.324832 | z = -45.596773 | P < 0.0001 |
Weterani | b1 = -0.003528 | z = -0.063587 | P = 0.9493 |
Grupa wiekowa (25-29) | b2 = 0.679314 | z = 2.921869 | P = 0.0035 |
Grupa wiekowa (30-34) | b3 = 1.371085 | z = 6.297824 | P < 0,0001 |
Grupa wiekowa (35-39) | b4 = 1.939619 | z = 9.14648 | P < 0.0001 |
Grupa wiekowa (40-44) | b5 = 2.034323 | z = 9.413835 | P < 0.0001 |
Grupa wiekowa (45-49) | b6 = 2.726551 | z = 12.269534 | P < 0.0001 |
Grupa wiekowa (50-54) | b7 = 3.202873 | z = 14.515926 | P < 0.0001 |
Grupa wiekowa (55-59) | b8 = 3.716187 | z = 17.064363 | P < 0.0001 |
Grupa wiekowa (60-64) | b9 = 4.092676 | z = 18.801188 | P < 0,0001 |
Grupa wiekowa (65-69) | b10 = 4,23621 | z = 18.892791 | P < 0,0001 |
Grupa wiekowa (70+) | b11 = 4,363717 | z = 19.19183 | P < 0,0001 |
log Cancers = -9,324832 -0,003528 Veterans +0.679314 Grupa wiekowa (25-29) +1.371085 Grupa wiekowa (30-34) +1.939619 Grupa wiekowa (35-39) +2.034323 Grupa wiekowa (40-44) +2.726551 Grupa wiekowa (45-49) +3.202873 Grupa wiekowa (50-54) +3.716187 Grupa wiekowa (55-59) +4.092676 Grupa wiekowa (60-64) +4.23621 Grupa wiekowa (65-69) +4.363717 Grupa wiekowa (70+)
Regresja Poissona – współczynniki zapadalności
Populacja wnioskowania: całe badanie (ryzyko bazowe)
Parametr | Estymacja | IRR | 95% CI |
Veterans | -0.003528 | 0.996479 | 0.89381 do 1.11094 |
Grupa wiekowa (25-29) | 0.679314 | 1.972524 | 1.250616 do 3.111147 |
Grupa wiekowa (30-34) | 1.371085 | 3.939622 | 2.571233 do 6.036256 |
Grupa wiekowa (35-39) | 1.939619 | 6.956098 | 4.590483 do 10.540786 |
Grupa wiekowa (40-44) | 2.034323 | 7.647073 | 5.006696 do 11.679905 |
Grupa wiekowa (45-49) | 2.726551 | 15.280093 | 9.884869 do 23.620062 |
Grupa wiekowa (50-54) | 3.202873 | 24.60311 | 15.96527 do 37.914362 |
Grupa wiekowa (55-59) | 3.716187 | 41.107367 | 26.825601 do 62.992647 |
Grupa wiekowa (60-64) | 4.092676 | 59.899957 | 39.096281 do 91.773558 |
Grupa wiekowa (65-69) | 4.23621 | 69.145275 | 44.555675 do 107.305502 |
Grupa wiekowa (70+) | 4.363717 | 78.54856 | 50.303407 do 122.653248 |
Regresja Poissona – analiza modelu
Accuracy = 1.00E-07
Log likelihood with all covariates = -66.006668
Deviance with all covariates = 5.217124, df = 10, rank = 12
Kryterium informacyjne Akaike’a = 29.217124
Kryterium informacyjne Schwartza = 45.400676
Deviance with no covariates = 2072.917496
Deviance (likelihood ratio, G²) = 2067.700372, df = 11, P < 0.0001
Pseudo (McFadden) R-square = 0.997483
Pseudo (likelihood ratio index) R-square = 0.939986
Pearson goodness of fit = 5.086063, df = 10, P = 0.8854
Deviance goodness of fit = 5.217124, df = 10, P = 0.8762
Over-dispersion scale parameter = 0.508606
Scaled G² = 4065.424363, df = 11, P < 0.0001
Scaled Pearson goodness of fit = 10, df = 10, P = 0.4405
Scaled Deviance goodness of fit = 10.257687, df = 10, P = 0.4182
Parametr | Współczynnik | Błąd standardowy |
Stała | -9.324832 | 0.204506 |
Weterani | -0.003528 | 0.055478 |
Grupa wiekowa (25-29) | 0.679314 | 0.232493 |
Grupa wiekowa (30-34) | 1.371085 | 0.217708 |
Grupa wiekowa (35-39) | 1.939619 | 0.212062 |
Grupa wiekowa (40-44) | 2.034323 | 0.216099 |
Grupa wiekowa (45-49) | 2.726551 | 0.222221 |
Grupa wiekowa (50-54) | 3.202873 | 0.220645 |
Grupa wiekowa (55-59) | 3.716187 | 0.217775 |
Grupa wiekowa (60-64) | 4.092676 | 0.217682 |
Grupa wiekowa (65-69) | 4.23621 | 0.224224 |
Grupa wiekowa (70+) | 4.363717 | 0.227374 |
Parametr | Skalowany błąd standardowy | Skalowany wald z | |
Stała | 0.145847 | -63.935674 | P < 0.0001 |
Weterani | 0.039565 | -0.089162 | P = 0.929 |
Grupa wiekowa (25-29) | 0.165806 | 4.097037 | P < 0.0001 |
Grupa wiekowa (30-34) | 0.155262 | 8.830792 | P < 0.0001 |
Grupa wiekowa (35-39) | 0.151235 | 12.825169 | P < 0.0001 |
Grupa wiekowa (40-44) | 0.154115 | 13.200054 | P < 0.0001 |
Grupa wiekowa (45-49) | 0.158481 | 17.204308 | P < 0.0001 |
Grupa wiekowa (50-54) | 0.157357 | 20.354193 | P < 0.0001 |
Grupa wiekowa (55-59) | 0.15531 | 23,927605 | P < 0,0001 |
Grupa wiekowa (60-64) | 0.155243 | 26.362975 | P < 0.0001 |
Grupa wiekowa (65-69) | 0.159909 | 26.491421 | P < 0.0001 |
Grupa wiekowa (70+) | 0.162155 | 26.910733 | P < 0.0001 |
.