Poisson Regressie

Menu-locatie: Analysis_Regression and Correlation_Poisson

Deze functie past een Poisson regressiemodel voor multivariate analyse van aantallen ongewone voorvallen in cohortstudies.

Het multiplicatieve Poisson regressiemodel wordt ingepast als een log-lineaire regressie (d. w. z.d.w.z. een log-verband en een Poisson-foutverdeling), met een offset gelijk aan de natuurlijke logaritme van de person-time indien person-time is gespecificeerd (McCullagh and Nelder, 1989; Frome, 1983; Agresti, 2002). Bij het multiplicatieve Poisson-model zijn de exponenten van de coëfficiënten gelijk aan de incidentieverhouding (relatief risico). Deze relatieve basisrisico’s geven waarden ten opzichte van met name genoemde covariaten voor de gehele populatie. U kunt relatieve risico’s voor een subpopulatie definiëren door het relatieve basisrisico van die subpopulatie te vermenigvuldigen met de relatieve risico’s als gevolg van andere covariate groeperingen, bijvoorbeeld het relatieve risico om aan longkanker te overlijden als u een roker bent die in een gebied met veel radon heeft gewoond. StatsDirect biedt relatieve risico’s voor subpopulaties voor dichotome covariaten.

De uitkomst/responsvariabele wordt verondersteld afkomstig te zijn van een Poisson-verdeling. Merk op dat een Poisson-verdeling de verdeling is van het aantal gebeurtenissen in een vast tijdsinterval, op voorwaarde dat de gebeurtenissen willekeurig, onafhankelijk in de tijd en met een constante snelheid optreden. Poisson-verdelingen worden gebruikt voor het modelleren van gebeurtenissen per ruimte-eenheid en per tijdseenheid, bijvoorbeeld het aantal deeltjes per vierkante centimeter.

Poisson-regressie kan ook worden gebruikt voor log-lineaire modellering van contingentietabelgegevens, en voor multinomiale modellering. Voor contingentietabellen zou u r + c indicator/dummy-variabelen als de covariaten creëren, die de r rijen en c kolommen van de contingentietabel vertegenwoordigen:

r1c1 r1c2 r1c3
r2c1 r2c2 r2c3
r3c1 r3c2 r3c3
Response x_r1 x_r2 x_r3 x_c1 x_c2 x_c3
r1c1 1 0 0 1 0 0
r1c2 1 0 0 0 1 0
r1c3 1 0 0 0 0 1
r2c1 0 1 0 1 0 0
r2c2 0 1 0 0 1 0
r2c3 0 1 0 0 0 1
r3c1 0 0 1 0 0 0
r3c2 0 0 1 0 1 0
r3c3 0 0 1 0 0 1

Toereikendheid van het model

Om de toereikendheid van het Poisson regressiemodel te beoordelen, moet u eerst kijken naar de beschrijvende basisstatistieken voor de gegevens van het aantal gebeurtenissen. Als het gemiddelde en de variantie van de telling zeer verschillend zijn (gelijkwaardig in een Poisson-verdeling), dan is het model waarschijnlijk oververspreid.

De modelanalyse-optie geeft een schaalparameter (sp) als maat voor de oververspreiding; deze is gelijk aan de Pearson chi-kwadraat statistiek gedeeld door het aantal waarnemingen minus het aantal parameters (covariaten en intercept). De varianties van de coëfficiënten kunnen worden aangepast door vermenigvuldiging met sp. De goodness of fit-teststatistieken en de residuen kunnen worden aangepast door deling door sp. Met behulp van een quasi-likelihoodbenadering zou sp met de regressie kunnen worden geïntegreerd, maar daarbij zou worden uitgegaan van een bekende vaste waarde voor sp, hetgeen zelden het geval is. Een betere benadering van overgedispergeerde Poisson-modellen is het gebruik van een parametrisch alternatief model, het negatieve binomiale model.

De deviantie (likelihood ratio) teststatistiek, G², is de nuttigste samenvatting van de geschiktheid van het gepaste model. Hij geeft de verandering in deviantie weer tussen het ingepaste model en het model met een constante term en zonder covariaten; daarom wordt G² niet berekend als er geen constante is gespecificeerd. Als deze test significant is, dragen de covariaten significant bij aan het model.

De deviantie goodness of fit test geeft de fit van de gegevens met een Poisson-verdeling in de regressie weer. Als deze test significant is, staat er een rode asterisk bij de P-waarde en moet u andere covariaten en/of andere foutverdelingen, zoals negatief binomiaal, overwegen.

StatsDirect sluit covariaten niet uit van de Poisson-regressie als ze sterk met elkaar gecorreleerd zijn. Modellen die geen volledige (rang = aantal parameters) rang hebben, worden in de meeste omstandigheden volledig geschat, maar u moet meestal overwegen variabelen te combineren of uit te sluiten, of eventueel de constante term uit te sluiten. Als u zich in een dergelijke situatie bevindt, moet u statistische deskundigen raadplegen.

Technische validatie

De deviantiefunctie is:

– waarin y het aantal gebeurtenissen is, n het aantal waarnemingen en μ het gepaste Poisson-gemiddelde.

De log-likelihoodfunctie is:

De regressie met maximale waarschijnlijkheid verloopt via iteratief herwogen kleinste kwadraten, waarbij singuliere waardeontleding wordt gebruikt om het lineaire systeem bij elke iteratie op te lossen, totdat de verandering in deviantie binnen de gespecificeerde nauwkeurigheid ligt.

De Pearson chi-kwadraatrest is:

De Pearson goodness of fit test statistic is:

De deviantie rest is (Cook and Weisberg, 1982):

-waarbij D(observatie, fit) de deviantie is en sgn(x) het teken van x is.

Het Freeman-Tukey, variantie gestabiliseerd, residu is (Freeman en Tukey, 1950):

Het gestandaardiseerd residu is:

– waarbij h de hefboom is (diagonaal van de Hat-matrix).

Voorbeeld

Van Armitage et al. (2001):

Testwerkboek (regressiewerkblad: Cancers, Subject-years, Veterans, Age group).

Om deze gegevens met behulp van StatsDirect te analyseren moet u eerst het testwerkboek openen met de functie Bestand openen in het menu Bestand. Genereer vervolgens een reeks dummy-variabelen om de niveaus van de variabele “Leeftijdsgroep” weer te geven met behulp van de functie Dummy-variabelen van het menu Gegevens. Selecteer vervolgens Poisson in het onderdeel Regressie en correlatie van het menu Analyse. Klik op de optie “Counts of events and exposure (person-time)” en selecteer als type antwoordgegevens “Individual”. Selecteer de kolom met de aanduiding “Cancers” wanneer om de reactie wordt gevraagd. Selecteer vervolgens “Subject-years” wanneer om de tijd per persoon wordt gevraagd. Selecteer vervolgens “Veteranen”, “Leeftijdsgroep (25-29)” , “Leeftijdsgroep (30-34)” enz. in één actie wanneer u om voorspellers wordt gevraagd.

Voor dit voorbeeld:

Poisson regressie

Deviantie (likelihood ratio) chi-kwadraat = 2067.700372 df = 11 P < 0.0001

Intercept b0 = -9.324832 z = -45.596773 P < 0.0001
Veteranen b1 = -0.003528 z = -0.063587 P = 0,9493
Leeftijdsgroep (25-29) b2 = 0,679314 z = 2.921869 P = 0.0035
Leeftijdsgroep (30-34) b3 = 1.371085 z = 6.297824 P < 0.0001
Leeftijdsgroep (35-39) b4 = 1.939619 z = 9,14648 P < 0,0001
Leeftijdsgroep (40-44) b5 = 2.034323 z = 9,413835 P < 0,0001
Leeftijdsgroep (45-49) b6 = 2,726551 z = 12,269534 P < 0,0001
P < 0.0001
Leeftijdsgroep (50-54) b7 = 3,202873 z = 14,515926 P < 0.0001
Leeftijdsgroep (55-59) b8 = 3,716187 z = 17,064363 P < 0.0001
Leeftijdsgroep (60-64) b9 = 4.092676 z = 18.801188 P < 0.0001
Leeftijdsgroep (65-69) b10 = 4.23621 z = 18.892791 P < 0.0001
Leeftijdsgroep (70+) b11 = 4.363717 z = 19.19183 P < 0.0001

log Cancers = -9.324832 -0.003528 Veteranen +0.679314 Leeftijdsgroep (25-29) +1.371085 Leeftijdsgroep (30-34) +1.939619 Leeftijdsgroep (35-39) +2.034323 Leeftijdsgroep (40-44) +2.726551 Leeftijdsgroep (45-49) +3.202873 Leeftijdsgroep (50-54) +3.716187 Leeftijdsgroep (55-59) +4.092676 Leeftijdsgroep (60-64) +4.23621 Leeftijdsgroep (65-69) +4.363717 Leeftijdsgroep (70+)

Poisson regressie – incidentieverhoudingen

Inferentiepopulatie: gehele studie (basisrisico)

Parameter Geschatte IRR 95% CI
Veteranen -0.003528 0,996479 0,89381 tot 1,11094
Leeftijdsgroep (25-29) 0,679314 1,972524 1,250616 tot 3.111147
Leeftijdsgroep (30-34) 1,371085 3,939622 2,571233 tot 6,036256
Leeftijdsgroep (35-39) 1,371085 3,939622 2,571233 tot 6,036256
Leeftijdsgroep (35-39) 1.939619 6,956098 4,590483 tot 10,540786
Leeftijdsgroep (40-44) 2.034323 7,647073 5,006696 tot 11,679905
Leeftijdsgroep (45-49) 2.726551 15,280093 9,884869 tot 23,620062
Leeftijdsgroep (50-54) 3.202873 24,60311 15,96527 tot 37,914362
Leeftijdsgroep (55-59) 3.716187 41.107367 26.825601 tot 62.992647
Leeftijdsgroep (60-64) 4.092676 59.899957 39.096281 tot 91.773558
Leeftijdsgroep (65-69) 4.23621 69.145275 44.555675 t/m 107.305502
Leeftijdsgroep (70+) 4,363717 78,54856 50,303407 t/m 122.653248

Poisson regressie – modelanalyse

Nauwkeurigheid = 1.00E-07

Log likelihood met alle covariaten = -66.006668

Deviantie met alle covariaten = 5.217124, df = 10, rang = 12

Akaike informatiecriterium = 29.217124

Schwartz informatiecriterium = 45.400676

Weerstand zonder covariaten = 2072.917496

Weerstand (likelihood ratio, G²) = 2067.700372, df = 11, P < 0.0001

Pseudo (McFadden) R-square = 0.997483

Pseudo (likelihood ratio index) R-square = 0.939986

Pearson goodness of fit = 5.086063, df = 10, P = 0.8854

Deviance goodness of fit = 5.217124, df = 10, P = 0.8762

Over-dispersie schaalparameter = 0.508606

Geschaalde G² = 4065,424363, df = 11, P < 0,0001

Geschaalde Pearson goodness of fit = 10, df = 10, P = 0.4405

Scaled Deviance goodness of fit = 10,257687, df = 10, P = 0,4182

Parameter Coefficient Standaardfout
Constant -9,324832 0.204506
Veteranen -0.003528 0.055478
Leeftijdsgroep (25-29) 0.003528 0.055478
679314 0.232493
Leeftijdsgroep (30-34) 1.371085 0,217708
Leeftijdsgroep (35-39) 1,939619 0,212062
Leeftijdsgroep (40-44) 2,034323 0,216099 0,216099
.216099
Leeftijdsgroep (45-49) 2.726551 0.222221
Leeftijdsgroep (50-54) 3.202873 0.220645
Leeftijdsgroep (55-59) 3.716187 0,217775
Leeftijdsgroep (60-64) 4,092676 0,217682
Leeftijdsgroep (60-64) 4,092676 0.217682
Leeftijdsgroep (65-69) 4,23621 0,224224
Leeftijdsgroep (70+) 4,23717 0,224224
.363717 0.227374
Parameter Geschaalde Standaardfout Geschaalde Wald z
Constante 0.145847 -63.935674 P < 0.0001
Veteranen 0.039565 -0.089162 P = 0.929
Leeftijdsgroep (25-29) 0.165806 4.097037 P < 0.0001
Leeftijdsgroep (30-34) 0.155262 8.830792 P < 0.0001
Leeftijdsgroep (35-39) 0.151235 12.825169 P < 0.0001
Leeftijdsgroep (40-44) 0.154115 13.200054 P < 0.0001
Leeftijdsgroep (45-49) 0.0001
0.200054 P158481 17.204308 P < 0.0001
Leeftijdsgroep (50-54) 0.157357 20.354193 P < 0.0001
Leeftijdsgroep (55-59) 0.354193 P < 0.0001
0.15531 23.927605 P < 0.0001
Leeftijdsgroep (60-64) 0.155243 26.362975 P < 0.0001
Leeftijdsgroep (65-69) 0.159909 26,491421 P < 0,0001
Leeftijdsgroep (70+) 0,162155 26,910733 P < 0,0001

Geef een antwoord

Het e-mailadres wordt niet gepubliceerd.