Menun sijainti: Analysis_Regression and Correlation_Poisson
Tämä funktio sovittaa Poissonin regressiomallin harvinaisten tapahtumien lukumäärien monimuuttuja-analyysiä varten kohorttitutkimuksissa.
Kerrannaisvaikutteinen Poissonin regressiomalli sovitetaan log-lineaarisena regressiona (i.eli log-linkki ja Poisson-virhejakauma), jossa offset on yhtä suuri kuin henkilöajan luonnollinen logaritmi, jos henkilöaika on määritelty (McCullagh ja Nelder, 1989; Frome, 1983; Agresti, 2002). Multiplikatiivisessa Poisson-mallissa kertoimien eksponentit ovat yhtä suuret kuin ilmaantuvuussuhde (suhteellinen riski). Nämä lähtötilanteen suhteelliset riskit antavat arvot suhteessa nimettyihin kovariaatteihin koko populaatiolle. Suhteelliset riskit voidaan määritellä osaväestölle kertomalla kyseisen osaväestön suhteellinen perusriski muiden kovariaattiryhmien aiheuttamilla suhteellisilla riskeillä, esimerkiksi suhteellinen riski kuolla keuhkosyöpään, jos on tupakoitsija, joka on asunut alueella, jossa on paljon radonia. StatsDirect tarjoaa alaryhmien suhteelliset riskit dikotomisille kovariaateille.
Tulos-/vastemuuttujan oletetaan olevan peräisin Poisson-jakaumasta. Huomaa, että Poisson-jakauma on tapahtumien lukumäärän jakauma kiinteällä ajanjaksolla edellyttäen, että tapahtumat tapahtuvat satunnaisesti, ajallisesti riippumattomasti ja vakionopeudella. Poisson-jakaumia käytetään mallintamaan tapahtumia sekä tila- että aikayksikköä kohti, esimerkiksi hiukkasten määrä neliösenttimetriä kohti.
Poisson-regressiota voidaan käyttää myös kontingenssitaulukkotietojen log-lineaariseen mallintamiseen ja multinomiaaliseen mallintamiseen. Kontingenssitaulukkolaskentaa varten luodaan kovariaateiksi r + c indikaattori/dummy-muuttujaa, jotka edustavat kontingenssitaulukon r riviä ja c saraketta:
r1c1 | r1c2 | r1c3 | |||
r2c1 | r2c2 | r2c3 | |||
r2c2 | r3c3 | r2c1 | r2c1 | r2c1 | r2c3 |
Vastaus | x_r1 | x_r2 | x_r2 | x_r2 | x_r2 | x_r2 | x_r2 | x_r2 | x_r2 | x_r2> | x_r2> | x_r2> | x_r2> | x_r2> | x_r2> | x_r2> | x_r2> | x_r2 | 0 | 0 | 1 | 0 | 0 | |||||
r1c2 | 1 | 0 | 0 | 0 | 0 | 1 | 0 | |||||||||||||||||||||
r1c3 | 1 | 0 | 0 | 0 | 0 | 0 | 1 | |||||||||||||||||||||
r2c1 | 0 | 1 | 0 | 1 | 0 | 0 | 0 | |||||||||||||||||||||
r2c2 | 0 | 1 | 0 | 0 | 1 | 0 | ||||||||||||||||||||||
r2c3 | 0 | 0 | 1 | 0 | 0 | 0 | 1 | |||||||||||||||||||||
r3c1 | 0 | 0 | 0 | 1 | 1 | 0 | 0 | |||||||||||||||||||||
r3c2 | 0 | 0 | 1 | 0 | 1 | 0 | ||||||||||||||||||||||
r3c3 | 0 | 0 | 0 | 1 | 0 | 0 | 1 |
Mallin riittävyys
Poisson-regressiomallin riittävyyden arvioimiseksi kannattaa ensin tarkastella tapahtumalukuaineiston kuvailevia perustilastoja. Jos laskentakeskiarvo ja varianssi ovat hyvin erilaisia (vastaavat Poisson-jakaumassa), malli on todennäköisesti ylidispersioitu.
Mallianalyysi-vaihtoehto antaa ylidispersion mittariksi asteikkoparametrin (sp); tämä on yhtä suuri kuin Pearsonin khiin neliö -tilasto jaettuna havaintojen lukumäärällä vähennettynä parametrien lukumäärällä (kovariaatit ja leikkaus). Kertoimien variansseja voidaan mukauttaa kertomalla ne sp:llä. Soveltuvuuden hyvyystestitilastoja ja residuaaleja voidaan mukauttaa jakamalla ne sp:llä. Käyttämällä kvasi-likelihood-lähestymistapaa sp voitaisiin integroida regressioon, mutta tällöin oletettaisiin, että sp:lle on tiedossa kiinteä arvo, mikä on harvoin totta. Parempi lähestymistapa liian hajanaisiin Poisson-malleihin on käyttää parametrista vaihtoehtoista mallia, negatiivista binomia.
Poikkeama (todennäköisyyssuhde) -testistatistiikka, G², on käyttökelpoisin yhteenveto sovitetun mallin riittävyydestä. Se edustaa poikkeaman muutosta sovitetun mallin ja sellaisen mallin välillä, jossa on vakiotermi ja jossa ei ole kovariaatteja; siksi G²:tä ei lasketa, jos vakiota ei ole määritetty. Jos tämä testi on merkitsevä, kovariaatit vaikuttavat merkittävästi malliin.
Poikkeaman sopivuuden hyvyystesti kuvastaa aineiston sopivuutta Poisson-jakaumaan regressiossa. Jos tämä testi on merkitsevä, P-arvon vieressä näkyy punainen tähti, ja sinun tulisi harkita muita kovariaatteja ja/tai muita virhejakaumia, kuten negatiivista binomia.
StatsDirect ei sulje pois/pudota kovariaatteja Poisson-regressiosta, jos ne korreloivat voimakkaasti keskenään. Mallit, joilla ei ole täyttä (rank = parametrien lukumäärä) rankia, estimoidaan täysin useimmissa tilanteissa, mutta yleensä kannattaa harkita muuttujien yhdistämistä tai poisjättämistä tai mahdollisesti vakiotermin poisjättämistä. Kannattaa hakeutua tilastollisen asiantuntijan puoleen, jos joutuu tällaiseen tilanteeseen.
Tekninen validointi
Poikkeama-funktio on:
– missä y on tapahtumien lukumäärä, n on havaintojen lukumäärä ja μ on sovitettu Poissonin keskiarvo.
Log-likelihood-funktio on:
Maksimi-likelihood-regressio etenee iteratiivisesti uudelleen painotetuilla pienimmillä neliöillä käyttäen singulaariarvojen hajotusta lineaarisen systeemin ratkaisemiseen jokaisessa iteraatiossa, kunnes poikkeaman muutos on määritellyn tarkkuuden sisällä.
Pearsonin khiin neliö -jäännös on:
Pearsonin sopivuuden hyvyystestin tilasto on:
Poikkeamajäännös on (Cook ja Weisberg, 1982):
– jossa D(havainto, sovitus) on poikkeama ja sgn(x) on x:n merkki.
Freeman-Tukey, varianssistabiloitu, residuaali on (Freeman ja Tukey, 1950):
Standardoitu residuaali on:
– jossa h on vipuvaikutus (Hat-matriisin diagonaali).
Esimerkki
Armitage et al. (2001):
Testityökirja (Regression worksheet: Cancers, Subject-years, Veterans, Age group).
Jotta voit analysoida näitä tietoja StatsDirectin avulla, sinun on ensin avattava testityökirja tiedostovalikosta löytyvällä file open -toiminnolla. Seuraavaksi luodaan joukko dummy-muuttujia, jotka edustavat ”Ikäryhmä”-muuttujan tasoja käyttäen Data-valikon Dummy Variables-toimintoa. Valitse sitten Analyysi-valikon Regressio ja korrelaatio -osiosta Poisson. Napsauta vaihtoehtoa ”Counts of events and exposure (person-time)” ja valitse vastaustietotyypiksi ”Individual”. Valitse vastausta pyydettäessä sarake, jossa on merkintä ”Cancers”. Valitse sitten ”Subject-years”, kun henkilöaikaa kysytään. Valitse sitten ”Veteraanit”, ”Ikäryhmä (25-29)” , ”Ikäryhmä (30-34)” jne. yhdellä toiminnolla, kun sinulta kysytään ennusteita.
Tässä esimerkissä:
Poissonin regressio
Devianssi (todennäköisyyssuhde) chi-neliö = 2067.700372 df = 11 P < 0.0001
Intercept | b0 = -9.324832 | z = -45.596773 | P < 0.0001 |
Veteraanit | b1 = -0.003528 | z = -0.06353587 | P = 0.9493 |
Aikäryhmä (25-29) | b2 = 0.679314 | z = 2.921869 | P = 0.0035 |
Aikäryhmä (30-34) | b3 = 1.371085 | z = 6.297824 | P < 0.0001 |
Aikäryhmä (35-39) | b4 = 1.939619 | z = 9.14648 | P < 0.0001 |
Aikäryhmä (40-44) | b5 = 2.034323 | z = 9.413835 | P < 0.0001 |
Aikäryhmä (45-49) | b6 = 2.726551 | z = 12.269534 | P < 0.0001 |
Ikäryhmä (50-54) | b7 = 3.202873 | z = 14.515926 | P < 0.0001 |
Ikäryhmä (55-59) | b8 = 3.716187 | z = 17.064363 | P < 0.0001 |
Aikäryhmä (60-64) | b9 = 4.092676 | z = 18.801188 | P < 0.0001 |
Aikäryhmä (65-69) | b10 = 4.23621 | z = 18.892791 | P < 0.0001 |
Aikäryhmä (70+) | b11 = 4.363717 | z = 19.19183 | P < 0.0001 |
log Cancers = -9.324832 -0.003528 Veterans +0.679314 Ikäryhmä (25-29) +1.371085 Ikäryhmä (30-34) +1.939619 Ikäryhmä (35-39) +2.034323 Ikäryhmä (40-44) +2.726551 Ikäryhmä (45-49) +3.202873 Ikäryhmä (50-54) +3.716187 Ikäryhmä (55-59) +4.092676 Ikäryhmä (60-64) +4.23621 Ikäryhmä (65-69) +4.363717 Ikäryhmä (70+)
Poissonin regressio – ilmaantuvuuslukusuhteet
Inferenssipopulaatio:
Parametri | Estimaatti | IRR | 95% CI |
Veteraanit | -0.003528 | 0.996479 | 0.89381-1.11094 |
Aikaryhmä (25-29) | 0.679314 | 1.972524 | 1.250616-3.111147 |
Aikäryhmä (30-34) | 1.371085 | 3.939622 | 2.571233 – 6.036256 |
Aikäryhmä (35-39) | 1.939619 | 6.956098 | 4.590483 – 10.540786 |
Aikäryhmä (40-44) | 2.034323 | 7.647073 | 5.006696 – 11.679905 |
Aikäryhmä (45-49) | 2.726551 | 15.280093 | 9.884869 – 23.620062 |
Aikäryhmä (50-54) | 3.202873 | 24.60311 | 15.96527 – 37.914362 |
Aikäryhmä (55-59) | 3.716187 | 41.107367 | 26.825601 – 62.992647 |
Aikäryhmä (60-64) | 4.092676 | 59.899957 | 39.096281 – 91.773558 |
Ikäryhmä (65-69) | 4.23621 | 69.145275 | 44.555675 – 107.305502 |
Aikäryhmä (70+) | 4.363717 | 78.54856 | 50.303407 – 122.653248 |
Poisson-regressio – mallianalyysi
Tarkkuus = 1.00E-07
Log likelihood with all covariates = -66.006668
Devianssi with all covariates = 5.217124, df = 10, rank = 12
Akaiken informaatiokriteeri = 29.217124
Schwartzin informaatiokriteeri = 45.400676
Devianssi ilman kovariaatteja = 2072.917496
Devianssi (todennäköisyyssuhde (likelihood ratio, G²) = 2067.700372, df = 11, P < 0.0001
Pseudo (McFadden) R-neliö = 0.997483
Pseudo (todennäköisyyssuhdeindeksi, likelihood ratio index) R-neliö = 0.939986
Pearsonin sovitettavuuden hyvyys (goodness-of-fitness of fit) = 5.086063, df = 10, P = 0.8854
Deviance goodness of fit = 5.217124, df = 10, P = 0.8762
Over-dispersion scale parameter = 0.508606
Skaalattu G² = 4065.424363, df = 11, P < 0.0001
Skaalattu Pearsonin hyvyys = 10, df = 10, P = 0.4405
Scaled Deviance goodness of fit = 10.257687, df = 10, P = 0.4182
Parametri | Kerroin | Vakiovirhe |
Vakioitu | -9.324832 | 0.204506 |
Veteraanit | -0.003528 | 0.055478 |
Aikäryhmä (25-29) | 0.679314 | 0.232493 |
Aikäryhmä (30-34) | 1.371085 | 0.217708 |
Aikäryhmä (35-39) | 1.939619 | 0.212062 |
Aikäryhmä (40-44) | 2.034323 | 0.216099 |
Aikäryhmä (45-49) | 2.726551 | 0.222221 |
Aikäryhmä (50-54) | 3.202873 | 0.220645 |
Aikäryhmä (55-59) | 3.716187 | 0.217775 |
Aikäryhmä (60-64) | 4.092676 | 0.217682 |
Aikäryhmä (65-69) | 4.23621 | 0.224224 |
Aikäryhmä (70+) | 4.363717 | 0.227374 |
Parametri | Skaalattu keskivirhe | Skaalattu Wald z | |
Vakioitu z | |||
Konstanssi | 0.145847 | -63.935674 | P < 0.0001 |
Veteraanit | 0.039565 | -0.089162 | P = 0.929 |
Aikäryhmä (25-29) | 0.165806 | 4.097037 | P < 0.0001 |
Aikäryhmä (30-34) | 0.155262 | 8.830792 | P < 0.0001 |
Aikäryhmä (35-39) | 0.151235 | 12.825169 | P < 0.0001 |
Aikäryhmä (40-44) | 0.154115 | 13.200054 | P < 0.0001 |
Aikäryhmä (45-49) | 0.158481 | 17.204308 | P < 0.0001 |
Aikäryhmä (50-54) | 0.157357 | 20.354193 | P < 0.0001 |
Aikäryhmä (55-59) | 0.15531 | 23.927605 | P < 0.0001 |
Aikäryhmä (60-64) | 0.155243 | 26.362975 | P < 0.0001 |
Aikäryhmä (65-69) | 0.159909 | 26.491421 | P < 0.0001 |
Aikäryhmä (70+) | 0.162155 | 26.910733 | P < 0.0001 |