Menu-locatie: Analysis_Regression and Correlation_Poisson
Deze functie past een Poisson regressiemodel voor multivariate analyse van aantallen ongewone voorvallen in cohortstudies.
Het multiplicatieve Poisson regressiemodel wordt ingepast als een log-lineaire regressie (d. w. z.d.w.z. een log-verband en een Poisson-foutverdeling), met een offset gelijk aan de natuurlijke logaritme van de person-time indien person-time is gespecificeerd (McCullagh and Nelder, 1989; Frome, 1983; Agresti, 2002). Bij het multiplicatieve Poisson-model zijn de exponenten van de coëfficiënten gelijk aan de incidentieverhouding (relatief risico). Deze relatieve basisrisico’s geven waarden ten opzichte van met name genoemde covariaten voor de gehele populatie. U kunt relatieve risico’s voor een subpopulatie definiëren door het relatieve basisrisico van die subpopulatie te vermenigvuldigen met de relatieve risico’s als gevolg van andere covariate groeperingen, bijvoorbeeld het relatieve risico om aan longkanker te overlijden als u een roker bent die in een gebied met veel radon heeft gewoond. StatsDirect biedt relatieve risico’s voor subpopulaties voor dichotome covariaten.
De uitkomst/responsvariabele wordt verondersteld afkomstig te zijn van een Poisson-verdeling. Merk op dat een Poisson-verdeling de verdeling is van het aantal gebeurtenissen in een vast tijdsinterval, op voorwaarde dat de gebeurtenissen willekeurig, onafhankelijk in de tijd en met een constante snelheid optreden. Poisson-verdelingen worden gebruikt voor het modelleren van gebeurtenissen per ruimte-eenheid en per tijdseenheid, bijvoorbeeld het aantal deeltjes per vierkante centimeter.
Poisson-regressie kan ook worden gebruikt voor log-lineaire modellering van contingentietabelgegevens, en voor multinomiale modellering. Voor contingentietabellen zou u r + c indicator/dummy-variabelen als de covariaten creëren, die de r rijen en c kolommen van de contingentietabel vertegenwoordigen:
r1c1 | r1c2 | r1c3 |
r2c1 | r2c2 | r2c3 |
r3c1 | r3c2 | r3c3 |
Response | x_r1 | x_r2 | x_r3 | x_c1 | x_c2 | x_c3 |
r1c1 | 1 | 0 | 0 | 1 | 0 | 0 |
r1c2 | 1 | 0 | 0 | 0 | 1 | 0 |
r1c3 | 1 | 0 | 0 | 0 | 0 | 1 |
r2c1 | 0 | 1 | 0 | 1 | 0 | 0 |
r2c2 | 0 | 1 | 0 | 0 | 1 | 0 |
r2c3 | 0 | 1 | 0 | 0 | 0 | 1 |
r3c1 | 0 | 0 | 1 | 0 | 0 | 0 |
r3c2 | 0 | 0 | 1 | 0 | 1 | 0 |
r3c3 | 0 | 0 | 1 | 0 | 0 | 1 |
Toereikendheid van het model
Om de toereikendheid van het Poisson regressiemodel te beoordelen, moet u eerst kijken naar de beschrijvende basisstatistieken voor de gegevens van het aantal gebeurtenissen. Als het gemiddelde en de variantie van de telling zeer verschillend zijn (gelijkwaardig in een Poisson-verdeling), dan is het model waarschijnlijk oververspreid.
De modelanalyse-optie geeft een schaalparameter (sp) als maat voor de oververspreiding; deze is gelijk aan de Pearson chi-kwadraat statistiek gedeeld door het aantal waarnemingen minus het aantal parameters (covariaten en intercept). De varianties van de coëfficiënten kunnen worden aangepast door vermenigvuldiging met sp. De goodness of fit-teststatistieken en de residuen kunnen worden aangepast door deling door sp. Met behulp van een quasi-likelihoodbenadering zou sp met de regressie kunnen worden geïntegreerd, maar daarbij zou worden uitgegaan van een bekende vaste waarde voor sp, hetgeen zelden het geval is. Een betere benadering van overgedispergeerde Poisson-modellen is het gebruik van een parametrisch alternatief model, het negatieve binomiale model.
De deviantie (likelihood ratio) teststatistiek, G², is de nuttigste samenvatting van de geschiktheid van het gepaste model. Hij geeft de verandering in deviantie weer tussen het ingepaste model en het model met een constante term en zonder covariaten; daarom wordt G² niet berekend als er geen constante is gespecificeerd. Als deze test significant is, dragen de covariaten significant bij aan het model.
De deviantie goodness of fit test geeft de fit van de gegevens met een Poisson-verdeling in de regressie weer. Als deze test significant is, staat er een rode asterisk bij de P-waarde en moet u andere covariaten en/of andere foutverdelingen, zoals negatief binomiaal, overwegen.
StatsDirect sluit covariaten niet uit van de Poisson-regressie als ze sterk met elkaar gecorreleerd zijn. Modellen die geen volledige (rang = aantal parameters) rang hebben, worden in de meeste omstandigheden volledig geschat, maar u moet meestal overwegen variabelen te combineren of uit te sluiten, of eventueel de constante term uit te sluiten. Als u zich in een dergelijke situatie bevindt, moet u statistische deskundigen raadplegen.
Technische validatie
De deviantiefunctie is:
– waarin y het aantal gebeurtenissen is, n het aantal waarnemingen en μ het gepaste Poisson-gemiddelde.
De log-likelihoodfunctie is:
De regressie met maximale waarschijnlijkheid verloopt via iteratief herwogen kleinste kwadraten, waarbij singuliere waardeontleding wordt gebruikt om het lineaire systeem bij elke iteratie op te lossen, totdat de verandering in deviantie binnen de gespecificeerde nauwkeurigheid ligt.
De Pearson chi-kwadraatrest is:
De Pearson goodness of fit test statistic is:
De deviantie rest is (Cook and Weisberg, 1982):
-waarbij D(observatie, fit) de deviantie is en sgn(x) het teken van x is.
Het Freeman-Tukey, variantie gestabiliseerd, residu is (Freeman en Tukey, 1950):
Het gestandaardiseerd residu is:
– waarbij h de hefboom is (diagonaal van de Hat-matrix).
Voorbeeld
Van Armitage et al. (2001):
Testwerkboek (regressiewerkblad: Cancers, Subject-years, Veterans, Age group).
Om deze gegevens met behulp van StatsDirect te analyseren moet u eerst het testwerkboek openen met de functie Bestand openen in het menu Bestand. Genereer vervolgens een reeks dummy-variabelen om de niveaus van de variabele “Leeftijdsgroep” weer te geven met behulp van de functie Dummy-variabelen van het menu Gegevens. Selecteer vervolgens Poisson in het onderdeel Regressie en correlatie van het menu Analyse. Klik op de optie “Counts of events and exposure (person-time)” en selecteer als type antwoordgegevens “Individual”. Selecteer de kolom met de aanduiding “Cancers” wanneer om de reactie wordt gevraagd. Selecteer vervolgens “Subject-years” wanneer om de tijd per persoon wordt gevraagd. Selecteer vervolgens “Veteranen”, “Leeftijdsgroep (25-29)” , “Leeftijdsgroep (30-34)” enz. in één actie wanneer u om voorspellers wordt gevraagd.
Voor dit voorbeeld:
Poisson regressie
Deviantie (likelihood ratio) chi-kwadraat = 2067.700372 df = 11 P < 0.0001
Intercept | b0 = -9.324832 | z = -45.596773 | P < 0.0001 |
Veteranen | b1 = -0.003528 | z = -0.063587 | P = 0,9493 |
Leeftijdsgroep (25-29) | b2 = 0,679314 | z = 2.921869 | P = 0.0035 |
Leeftijdsgroep (30-34) | b3 = 1.371085 | z = 6.297824 | P < 0.0001 |
Leeftijdsgroep (35-39) | b4 = 1.939619 | z = 9,14648 | P < 0,0001 |
Leeftijdsgroep (40-44) | b5 = 2.034323 | z = 9,413835 | P < 0,0001 |
Leeftijdsgroep (45-49) | b6 = 2,726551 | z = 12,269534 | P < 0,0001 |
P < 0.0001 | |||
Leeftijdsgroep (50-54) | b7 = 3,202873 | z = 14,515926 | P < 0.0001 |
Leeftijdsgroep (55-59) | b8 = 3,716187 | z = 17,064363 | P < 0.0001 |
Leeftijdsgroep (60-64) | b9 = 4.092676 | z = 18.801188 | P < 0.0001 |
Leeftijdsgroep (65-69) | b10 = 4.23621 | z = 18.892791 | P < 0.0001 |
Leeftijdsgroep (70+) | b11 = 4.363717 | z = 19.19183 | P < 0.0001 |
log Cancers = -9.324832 -0.003528 Veteranen +0.679314 Leeftijdsgroep (25-29) +1.371085 Leeftijdsgroep (30-34) +1.939619 Leeftijdsgroep (35-39) +2.034323 Leeftijdsgroep (40-44) +2.726551 Leeftijdsgroep (45-49) +3.202873 Leeftijdsgroep (50-54) +3.716187 Leeftijdsgroep (55-59) +4.092676 Leeftijdsgroep (60-64) +4.23621 Leeftijdsgroep (65-69) +4.363717 Leeftijdsgroep (70+)
Poisson regressie – incidentieverhoudingen
Inferentiepopulatie: gehele studie (basisrisico)
Parameter | Geschatte | IRR | 95% CI |
Veteranen | -0.003528 | 0,996479 | 0,89381 tot 1,11094 |
Leeftijdsgroep (25-29) | 0,679314 | 1,972524 | 1,250616 tot 3.111147 |
Leeftijdsgroep (30-34) | 1,371085 | 3,939622 | 2,571233 tot 6,036256 |
Leeftijdsgroep (35-39) | 1,371085 | 3,939622 | 2,571233 tot 6,036256 |
Leeftijdsgroep (35-39) | 1.939619 | 6,956098 | 4,590483 tot 10,540786 |
Leeftijdsgroep (40-44) | 2.034323 | 7,647073 | 5,006696 tot 11,679905 |
Leeftijdsgroep (45-49) | 2.726551 | 15,280093 | 9,884869 tot 23,620062 |
Leeftijdsgroep (50-54) | 3.202873 | 24,60311 | 15,96527 tot 37,914362 |
Leeftijdsgroep (55-59) | 3.716187 | 41.107367 | 26.825601 tot 62.992647 |
Leeftijdsgroep (60-64) | 4.092676 | 59.899957 | 39.096281 tot 91.773558 |
Leeftijdsgroep (65-69) | 4.23621 | 69.145275 | 44.555675 t/m 107.305502 |
Leeftijdsgroep (70+) | 4,363717 | 78,54856 | 50,303407 t/m 122.653248 |
Poisson regressie – modelanalyse
Nauwkeurigheid = 1.00E-07
Log likelihood met alle covariaten = -66.006668
Deviantie met alle covariaten = 5.217124, df = 10, rang = 12
Akaike informatiecriterium = 29.217124
Schwartz informatiecriterium = 45.400676
Weerstand zonder covariaten = 2072.917496
Weerstand (likelihood ratio, G²) = 2067.700372, df = 11, P < 0.0001
Pseudo (McFadden) R-square = 0.997483
Pseudo (likelihood ratio index) R-square = 0.939986
Pearson goodness of fit = 5.086063, df = 10, P = 0.8854
Deviance goodness of fit = 5.217124, df = 10, P = 0.8762
Over-dispersie schaalparameter = 0.508606
Geschaalde G² = 4065,424363, df = 11, P < 0,0001
Geschaalde Pearson goodness of fit = 10, df = 10, P = 0.4405
Scaled Deviance goodness of fit = 10,257687, df = 10, P = 0,4182
Parameter | Coefficient | Standaardfout | |
Constant | -9,324832 | 0.204506 | |
Veteranen | -0.003528 | 0.055478 | |
Leeftijdsgroep (25-29) | 0.003528 | 0.055478 | |
679314 | 0.232493 | ||
Leeftijdsgroep (30-34) | 1.371085 | 0,217708 | |
Leeftijdsgroep (35-39) | 1,939619 | 0,212062 | |
Leeftijdsgroep (40-44) | 2,034323 | 0,216099 | 0,216099 |
.216099 | |||
Leeftijdsgroep (45-49) | 2.726551 | 0.222221 | |
Leeftijdsgroep (50-54) | 3.202873 | 0.220645 | |
Leeftijdsgroep (55-59) | 3.716187 | 0,217775 | |
Leeftijdsgroep (60-64) | 4,092676 | 0,217682 | |
Leeftijdsgroep (60-64) | 4,092676 | 0.217682 | |
Leeftijdsgroep (65-69) | 4,23621 | 0,224224 | |
Leeftijdsgroep (70+) | 4,23717 | 0,224224 | |
.363717 | 0.227374 |
Parameter | Geschaalde Standaardfout | Geschaalde Wald z | |
Constante | 0.145847 | -63.935674 | P < 0.0001 |
Veteranen | 0.039565 | -0.089162 | P = 0.929 |
Leeftijdsgroep (25-29) | 0.165806 | 4.097037 | P < 0.0001 |
Leeftijdsgroep (30-34) | 0.155262 | 8.830792 | P < 0.0001 |
Leeftijdsgroep (35-39) | 0.151235 | 12.825169 | P < 0.0001 |
Leeftijdsgroep (40-44) | 0.154115 | 13.200054 | P < 0.0001 |
Leeftijdsgroep (45-49) | 0.0001 | ||
0.200054 | P158481 | 17.204308 | P < 0.0001 |
Leeftijdsgroep (50-54) | 0.157357 | 20.354193 | P < 0.0001 |
Leeftijdsgroep (55-59) | 0.354193 | P < 0.0001 | |
0.15531 | 23.927605 | P < 0.0001 | |
Leeftijdsgroep (60-64) | 0.155243 | 26.362975 | P < 0.0001 |
Leeftijdsgroep (65-69) | 0.159909 | 26,491421 | P < 0,0001 |
Leeftijdsgroep (70+) | 0,162155 | 26,910733 | P < 0,0001 |