Poissonin regressio

Menun sijainti: Analysis_Regression and Correlation_Poisson

Tämä funktio sovittaa Poissonin regressiomallin harvinaisten tapahtumien lukumäärien monimuuttuja-analyysiä varten kohorttitutkimuksissa.

Kerrannaisvaikutteinen Poissonin regressiomalli sovitetaan log-lineaarisena regressiona (i.eli log-linkki ja Poisson-virhejakauma), jossa offset on yhtä suuri kuin henkilöajan luonnollinen logaritmi, jos henkilöaika on määritelty (McCullagh ja Nelder, 1989; Frome, 1983; Agresti, 2002). Multiplikatiivisessa Poisson-mallissa kertoimien eksponentit ovat yhtä suuret kuin ilmaantuvuussuhde (suhteellinen riski). Nämä lähtötilanteen suhteelliset riskit antavat arvot suhteessa nimettyihin kovariaatteihin koko populaatiolle. Suhteelliset riskit voidaan määritellä osaväestölle kertomalla kyseisen osaväestön suhteellinen perusriski muiden kovariaattiryhmien aiheuttamilla suhteellisilla riskeillä, esimerkiksi suhteellinen riski kuolla keuhkosyöpään, jos on tupakoitsija, joka on asunut alueella, jossa on paljon radonia. StatsDirect tarjoaa alaryhmien suhteelliset riskit dikotomisille kovariaateille.

Tulos-/vastemuuttujan oletetaan olevan peräisin Poisson-jakaumasta. Huomaa, että Poisson-jakauma on tapahtumien lukumäärän jakauma kiinteällä ajanjaksolla edellyttäen, että tapahtumat tapahtuvat satunnaisesti, ajallisesti riippumattomasti ja vakionopeudella. Poisson-jakaumia käytetään mallintamaan tapahtumia sekä tila- että aikayksikköä kohti, esimerkiksi hiukkasten määrä neliösenttimetriä kohti.

Poisson-regressiota voidaan käyttää myös kontingenssitaulukkotietojen log-lineaariseen mallintamiseen ja multinomiaaliseen mallintamiseen. Kontingenssitaulukkolaskentaa varten luodaan kovariaateiksi r + c indikaattori/dummy-muuttujaa, jotka edustavat kontingenssitaulukon r riviä ja c saraketta:

.

r1c1 r1c2 r1c3
r2c1 r2c2 r2c3
r2c2 r3c3 r2c1 r2c1 r2c1 r2c3
Vastaus x_r1 x_r2 x_r2 x_r2 x_r2 x_r2 x_r2 x_r2 x_r2 x_r2> x_r2> x_r2> x_r2> x_r2> x_r2> x_r2> x_r2> x_r2 0 0 1 0 0
r1c2 1 0 0 0 0 1 0
r1c3 1 0 0 0 0 0 1
r2c1 0 1 0 1 0 0 0
r2c2 0 1 0 0 1 0
r2c3 0 0 1 0 0 0 1
r3c1 0 0 0 1 1 0 0
r3c2 0 0 1 0 1 0
r3c3 0 0 0 1 0 0 1

Mallin riittävyys

Poisson-regressiomallin riittävyyden arvioimiseksi kannattaa ensin tarkastella tapahtumalukuaineiston kuvailevia perustilastoja. Jos laskentakeskiarvo ja varianssi ovat hyvin erilaisia (vastaavat Poisson-jakaumassa), malli on todennäköisesti ylidispersioitu.

Mallianalyysi-vaihtoehto antaa ylidispersion mittariksi asteikkoparametrin (sp); tämä on yhtä suuri kuin Pearsonin khiin neliö -tilasto jaettuna havaintojen lukumäärällä vähennettynä parametrien lukumäärällä (kovariaatit ja leikkaus). Kertoimien variansseja voidaan mukauttaa kertomalla ne sp:llä. Soveltuvuuden hyvyystestitilastoja ja residuaaleja voidaan mukauttaa jakamalla ne sp:llä. Käyttämällä kvasi-likelihood-lähestymistapaa sp voitaisiin integroida regressioon, mutta tällöin oletettaisiin, että sp:lle on tiedossa kiinteä arvo, mikä on harvoin totta. Parempi lähestymistapa liian hajanaisiin Poisson-malleihin on käyttää parametrista vaihtoehtoista mallia, negatiivista binomia.

Poikkeama (todennäköisyyssuhde) -testistatistiikka, G², on käyttökelpoisin yhteenveto sovitetun mallin riittävyydestä. Se edustaa poikkeaman muutosta sovitetun mallin ja sellaisen mallin välillä, jossa on vakiotermi ja jossa ei ole kovariaatteja; siksi G²:tä ei lasketa, jos vakiota ei ole määritetty. Jos tämä testi on merkitsevä, kovariaatit vaikuttavat merkittävästi malliin.

Poikkeaman sopivuuden hyvyystesti kuvastaa aineiston sopivuutta Poisson-jakaumaan regressiossa. Jos tämä testi on merkitsevä, P-arvon vieressä näkyy punainen tähti, ja sinun tulisi harkita muita kovariaatteja ja/tai muita virhejakaumia, kuten negatiivista binomia.

StatsDirect ei sulje pois/pudota kovariaatteja Poisson-regressiosta, jos ne korreloivat voimakkaasti keskenään. Mallit, joilla ei ole täyttä (rank = parametrien lukumäärä) rankia, estimoidaan täysin useimmissa tilanteissa, mutta yleensä kannattaa harkita muuttujien yhdistämistä tai poisjättämistä tai mahdollisesti vakiotermin poisjättämistä. Kannattaa hakeutua tilastollisen asiantuntijan puoleen, jos joutuu tällaiseen tilanteeseen.

Tekninen validointi

Poikkeama-funktio on:

– missä y on tapahtumien lukumäärä, n on havaintojen lukumäärä ja μ on sovitettu Poissonin keskiarvo.

Log-likelihood-funktio on:

Maksimi-likelihood-regressio etenee iteratiivisesti uudelleen painotetuilla pienimmillä neliöillä käyttäen singulaariarvojen hajotusta lineaarisen systeemin ratkaisemiseen jokaisessa iteraatiossa, kunnes poikkeaman muutos on määritellyn tarkkuuden sisällä.

Pearsonin khiin neliö -jäännös on:

Pearsonin sopivuuden hyvyystestin tilasto on:

Poikkeamajäännös on (Cook ja Weisberg, 1982):

– jossa D(havainto, sovitus) on poikkeama ja sgn(x) on x:n merkki.

Freeman-Tukey, varianssistabiloitu, residuaali on (Freeman ja Tukey, 1950):

Standardoitu residuaali on:

– jossa h on vipuvaikutus (Hat-matriisin diagonaali).

Esimerkki

Armitage et al. (2001):

Testityökirja (Regression worksheet: Cancers, Subject-years, Veterans, Age group).

Jotta voit analysoida näitä tietoja StatsDirectin avulla, sinun on ensin avattava testityökirja tiedostovalikosta löytyvällä file open -toiminnolla. Seuraavaksi luodaan joukko dummy-muuttujia, jotka edustavat ”Ikäryhmä”-muuttujan tasoja käyttäen Data-valikon Dummy Variables-toimintoa. Valitse sitten Analyysi-valikon Regressio ja korrelaatio -osiosta Poisson. Napsauta vaihtoehtoa ”Counts of events and exposure (person-time)” ja valitse vastaustietotyypiksi ”Individual”. Valitse vastausta pyydettäessä sarake, jossa on merkintä ”Cancers”. Valitse sitten ”Subject-years”, kun henkilöaikaa kysytään. Valitse sitten ”Veteraanit”, ”Ikäryhmä (25-29)” , ”Ikäryhmä (30-34)” jne. yhdellä toiminnolla, kun sinulta kysytään ennusteita.

Tässä esimerkissä:

Poissonin regressio

Devianssi (todennäköisyyssuhde) chi-neliö = 2067.700372 df = 11 P < 0.0001

Intercept b0 = -9.324832 z = -45.596773 P < 0.0001
Veteraanit b1 = -0.003528 z = -0.06353587 P = 0.9493
Aikäryhmä (25-29) b2 = 0.679314 z = 2.921869 P = 0.0035
Aikäryhmä (30-34) b3 = 1.371085 z = 6.297824 P < 0.0001
Aikäryhmä (35-39) b4 = 1.939619 z = 9.14648 P < 0.0001
Aikäryhmä (40-44) b5 = 2.034323 z = 9.413835 P < 0.0001
Aikäryhmä (45-49) b6 = 2.726551 z = 12.269534 P < 0.0001
Ikäryhmä (50-54) b7 = 3.202873 z = 14.515926 P < 0.0001
Ikäryhmä (55-59) b8 = 3.716187 z = 17.064363 P < 0.0001
Aikäryhmä (60-64) b9 = 4.092676 z = 18.801188 P < 0.0001
Aikäryhmä (65-69) b10 = 4.23621 z = 18.892791 P < 0.0001
Aikäryhmä (70+) b11 = 4.363717 z = 19.19183 P < 0.0001

log Cancers = -9.324832 -0.003528 Veterans +0.679314 Ikäryhmä (25-29) +1.371085 Ikäryhmä (30-34) +1.939619 Ikäryhmä (35-39) +2.034323 Ikäryhmä (40-44) +2.726551 Ikäryhmä (45-49) +3.202873 Ikäryhmä (50-54) +3.716187 Ikäryhmä (55-59) +4.092676 Ikäryhmä (60-64) +4.23621 Ikäryhmä (65-69) +4.363717 Ikäryhmä (70+)

Poissonin regressio – ilmaantuvuuslukusuhteet

Inferenssipopulaatio:

Parametri Estimaatti IRR 95% CI
Veteraanit -0.003528 0.996479 0.89381-1.11094
Aikaryhmä (25-29) 0.679314 1.972524 1.250616-3.111147
Aikäryhmä (30-34) 1.371085 3.939622 2.571233 – 6.036256
Aikäryhmä (35-39) 1.939619 6.956098 4.590483 – 10.540786
Aikäryhmä (40-44) 2.034323 7.647073 5.006696 – 11.679905
Aikäryhmä (45-49) 2.726551 15.280093 9.884869 – 23.620062
Aikäryhmä (50-54) 3.202873 24.60311 15.96527 – 37.914362
Aikäryhmä (55-59) 3.716187 41.107367 26.825601 – 62.992647
Aikäryhmä (60-64) 4.092676 59.899957 39.096281 – 91.773558
Ikäryhmä (65-69) 4.23621 69.145275 44.555675 – 107.305502
Aikäryhmä (70+) 4.363717 78.54856 50.303407 – 122.653248

Poisson-regressio – mallianalyysi

Tarkkuus = 1.00E-07

Log likelihood with all covariates = -66.006668

Devianssi with all covariates = 5.217124, df = 10, rank = 12

Akaiken informaatiokriteeri = 29.217124

Schwartzin informaatiokriteeri = 45.400676

Devianssi ilman kovariaatteja = 2072.917496

Devianssi (todennäköisyyssuhde (likelihood ratio, G²) = 2067.700372, df = 11, P < 0.0001

Pseudo (McFadden) R-neliö = 0.997483

Pseudo (todennäköisyyssuhdeindeksi, likelihood ratio index) R-neliö = 0.939986

Pearsonin sovitettavuuden hyvyys (goodness-of-fitness of fit) = 5.086063, df = 10, P = 0.8854

Deviance goodness of fit = 5.217124, df = 10, P = 0.8762

Over-dispersion scale parameter = 0.508606

Skaalattu G² = 4065.424363, df = 11, P < 0.0001

Skaalattu Pearsonin hyvyys = 10, df = 10, P = 0.4405

Scaled Deviance goodness of fit = 10.257687, df = 10, P = 0.4182

Parametri Kerroin Vakiovirhe
Vakioitu -9.324832 0.204506
Veteraanit -0.003528 0.055478
Aikäryhmä (25-29) 0.679314 0.232493
Aikäryhmä (30-34) 1.371085 0.217708
Aikäryhmä (35-39) 1.939619 0.212062
Aikäryhmä (40-44) 2.034323 0.216099
Aikäryhmä (45-49) 2.726551 0.222221
Aikäryhmä (50-54) 3.202873 0.220645
Aikäryhmä (55-59) 3.716187 0.217775
Aikäryhmä (60-64) 4.092676 0.217682
Aikäryhmä (65-69) 4.23621 0.224224
Aikäryhmä (70+) 4.363717 0.227374
Parametri Skaalattu keskivirhe Skaalattu Wald z
Vakioitu z
Konstanssi 0.145847 -63.935674 P < 0.0001
Veteraanit 0.039565 -0.089162 P = 0.929
Aikäryhmä (25-29) 0.165806 4.097037 P < 0.0001
Aikäryhmä (30-34) 0.155262 8.830792 P < 0.0001
Aikäryhmä (35-39) 0.151235 12.825169 P < 0.0001
Aikäryhmä (40-44) 0.154115 13.200054 P < 0.0001
Aikäryhmä (45-49) 0.158481 17.204308 P < 0.0001
Aikäryhmä (50-54) 0.157357 20.354193 P < 0.0001
Aikäryhmä (55-59) 0.15531 23.927605 P < 0.0001
Aikäryhmä (60-64) 0.155243 26.362975 P < 0.0001
Aikäryhmä (65-69) 0.159909 26.491421 P < 0.0001
Aikäryhmä (70+) 0.162155 26.910733 P < 0.0001

Vastaa

Sähköpostiosoitettasi ei julkaista.