Poisson Regression

Posizione del menu: Analysis_Regression and Correlation_Poisson

Questa funzione adatta un modello di regressione di Poisson per l’analisi multivariata del numero di eventi non comuni negli studi di coorte.cioè un legame log e una distribuzione di errore di Poisson), con un offset pari al logaritmo naturale del tempo-persona se il tempo-persona è specificato (McCullagh e Nelder, 1989; Frome, 1983; Agresti, 2002). Con il modello Poisson moltiplicativo, gli esponenti dei coefficienti sono uguali al rapporto del tasso di incidenza (rischio relativo). Questi rischi relativi di base danno valori relativi alle covariate nominate per l’intera popolazione. È possibile definire i rischi relativi per una sottopopolazione moltiplicando il rischio relativo di base di quella sottopopolazione con i rischi relativi dovuti ad altri raggruppamenti di covariate, per esempio il rischio relativo di morire di cancro ai polmoni se sei un fumatore che ha vissuto in una zona ad alto contenuto di radon. StatsDirect offre rischi relativi di sottopopolazione per covariate dicotomiche.

La variabile risultato/risposta si assume provenga da una distribuzione di Poisson. Si noti che una distribuzione di Poisson è la distribuzione del numero di eventi in un intervallo di tempo fisso, a condizione che gli eventi si verifichino in modo casuale, indipendentemente nel tempo e ad un tasso costante. Le distribuzioni di Poisson sono usate per modellare gli eventi per unità di spazio e di tempo, per esempio il numero di particelle per centimetro quadrato.

La regressione Poisson può anche essere usata per la modellazione log-lineare dei dati delle tabelle di contingenza, e per la modellazione multinomiale. Per i conteggi delle tabelle di contingenza dovreste creare r + c variabili indicatrici/dummy come covariate, che rappresentano le righe r e le colonne c della tabella di contingenza:

r1c1 r1c2 r1c3
r2c1 r2c2 r2c3
r3c1 r3c2 r3c3
Risposta x_r1 x_r2 x_r3 x_c1 x_c2 x_c3
r1c1 1 0 0 1 0 0
r1c2 1 0 0 0 0 1 0
r1c3 1 0 0 0 0 1
r2c1 0 1 0 1 0 0
r2c2 0 1 0 0 1 0
r2c3 0 1 1 0 0 0 1
r3c1 0 0 1 1 0 0
r3c2 0 0 1 0 1 0
r3c3 0 0 0 1 0 0 1

Adeguatezza del modello

Per valutare l’adeguatezza del modello di regressione di Poisson dovresti prima guardare le statistiche descrittive di base per i dati del conteggio degli eventi. Se la media e la varianza del conteggio sono molto diverse (equivalenti in una distribuzione di Poisson) allora è probabile che il modello sia sovradisperso.

L’opzione di analisi del modello fornisce un parametro di scala (sp) come misura della sovradispersione; questo è uguale alla statistica chi-quadro di Pearson divisa per il numero di osservazioni meno il numero di parametri (covariate e intercetta). Le varianze dei coefficienti possono essere aggiustate moltiplicando per sp. Le statistiche del test di bontà dell’adattamento e i residui possono essere aggiustati dividendo per sp. Usando un approccio di quasi-liquidità sp potrebbe essere integrato con la regressione, ma questo presupporrebbe un valore fisso noto per sp, che raramente è il caso. Un approccio migliore ai modelli Poisson sovradimensionati è quello di utilizzare un modello alternativo parametrico, il binomiale negativo.

La devianza (likelihood ratio) statistica del test, G², è la sintesi più utile dell’adeguatezza del modello adattato. Rappresenta la variazione della devianza tra il modello adattato e il modello con un termine costante e nessuna covariata; quindi G² non viene calcolato se non viene specificata alcuna costante. Se questo test è significativo, allora le covariate contribuiscono significativamente al modello.

Il test della devianza riflette l’adattamento dei dati a una distribuzione di Poisson nella regressione. Se questo test è significativo, allora un asterisco rosso è mostrato dal valore P, e dovresti considerare altre covariate e/o altre distribuzioni di errore come la binomiale negativa.

StatsDirect non esclude/elimina le covariate dalla sua regressione Poisson se sono altamente correlate tra loro. I modelli che non sono di rango pieno (rango = numero di parametri) sono completamente stimati nella maggior parte delle circostanze, ma di solito dovreste considerare di combinare o escludere le variabili, o eventualmente escludere il termine costante. Dovreste cercare un esperto statistico se vi trovate in questa situazione.

Valutazione tecnica

La funzione di devianza è:

– dove y è il numero di eventi, n è il numero di osservazioni e μ è la media di Poisson applicata.

La funzione di log-liquidità è:

La regressione a massima verosimiglianza procede per minimi quadrati iterativamente riponderati, usando la decomposizione dei valori singolari per risolvere il sistema lineare ad ogni iterazione, finché il cambiamento nella devianza è entro la precisione specificata.

Il residuo chi-quadro di Pearson è:

La statistica del test di bontà di Pearson è:

Il residuo di devianza è (Cook e Weisberg, 1982):

-dove D(observation, fit) è la devianza e sgn(x) è il segno di x.

Il residuo Freeman-Tukey, varianza stabilizzata, è (Freeman e Tukey, 1950):

Il residuo standardizzato è:

– dove h è la leva (diagonale della matrice Hat).

Esempio

Da Armitage et al. (2001):

Libro di lavoro di prova (foglio di lavoro Regressione: Tumori, Anni-soggetto, Veterani, Gruppo di età).

Per analizzare questi dati con StatsDirect dovete prima aprire il libro di lavoro di prova usando la funzione di apertura del file del menu file. Poi generate un set di variabili dummy per rappresentare i livelli della variabile “Gruppo d’età” usando la funzione Dummy Variables del menu Data. Poi seleziona Poisson dalla sezione Regressione e Correlazione del menu Analisi. Clicca sull’opzione “Conteggi di eventi ed esposizione (persona-tempo), e seleziona il tipo di dati di risposta come “Individuale”. Seleziona la colonna “Cancri” quando ti viene chiesta la risposta. Poi seleziona “Anni-soggetto” quando ti viene chiesto il tempo-persona. Poi selezionate “Veterani”, “Gruppo di età (25-29)”, “Gruppo di età (30-34)” ecc. in una sola azione quando vi viene chiesto dei predittori.

Per questo esempio:

Regressione Poisson

Devianza (likelihood ratio) chi-quadrato = 2067.700372 df = 11 P < 0.0001

Intercetta b0 = -9.324832 z = -45.596773 P < 0,0001
Veterani b1 = -0,003528 z = -0.063587 P = 0,9493
Gruppo di età (25-29) b2 = 0,679314 z = 2.921869 P = 0,0035
Gruppo di età (30-34) b3 = 1,371085 z = 6.297824 P < 0,0001
Gruppo di età (35-39) b4 = 1.939619 z = 9,14648 P < 0,0001
Gruppo di età (40-44) b5 = 2.034323 z = 9.413835 P < 0.0001
Gruppo di età (45-49) b6 = 2.726551 z = 12.269534 P < 0.0001
Gruppo di età (50-54) b7 = 3.202873 z = 14.515926 P < 0.0001
Gruppo di età (55-59) b8 = 3.716187 z = 17.064363 P < 0.0001
Gruppo di età (60-64) b9 = 4.092676 z = 18.801188 P < 0.0001
Gruppo di età (65-69) b10 = 4.23621 z = 18.892791 P < 0.0001
Gruppo di età (70+) b11 = 4.363717 z = 19.19183 P < 0.0001

log Cancers = -9.324832 -0.003528 Veterani +0.679314 Gruppo di età (25-29) +1.371085 Gruppo di età (30-34) +1.939619 Gruppo di età (35-39) +2.034323 Gruppo di età (40-44) +2.726551 Gruppo di età (45-49) +3.202873 Gruppo di età (50-54) +3.716187 Gruppo di età (55-59) +4.092676 Gruppo di età (60-64) +4.23621 Gruppo di età (65-69) +4.363717 Gruppo di età (70+)

Regressione Poisson – rapporti di incidenza

Popolazione di riferimento: intero studio (rischio iniziale)

Parametro Stima IRR 95% CI
Veterani -0.003528 0,996479 0,89381 a 1,11094
Gruppo di età (25-29) 0,679314 1,972524 1,250616 a 3.111147
Gruppo di età (30-34) 1.371085 3.939622 2.571233 a 6.036256
Gruppo di età (35-39) 1.939619 6.956098 4.590483 a 10.540786
Gruppo di età (40-44) 2.034323 7.647073 5.006696 a 11.679905
Gruppo di età (45-49) 2.726551 15.280093 9.884869 a 23.620062
Gruppo di età (50-54) 3.202873 24.60311 15.96527 a 37.914362
Gruppo di età (55-59) 3.716187 41.107367 26.825601 a 62.992647
Gruppo di età (60-64) 4.092676 59.899957 39.096281 a 91.773558
Gruppo di età (65-69) 4.23621 69.145275 44.555675 a 107.305502
Gruppo di età (70+) 4.363717 78.54856 50.303407 a 122.653248

Regressione Poisson – analisi del modello

Precisione = 1.00E-07

Log likelihood con tutte le covariate = -66.006668

Devianza con tutte le covariate = 5.217124, df = 10, rank = 12

Criterio di informazione di Akaike = 29.217124

Criterio di informazione di Schwartz = 45.400676

Devianza senza covariate = 2072.917496

Devianza (likelihood ratio, G²) = 2067.700372, df = 11, P < 0.0001

Pseudo (McFadden) R-square = 0.997483

Pseudo (likelihood ratio index) R-square = 0.939986

Pearson goodness of fit = 5.086063, df = 10, P = 0.8854

Bontà di adattamento di Deviance = 5.217124, df = 10, P = 0.8762

Parametro di scala di sovradispersione = 0.508606

Scalata G² = 4065.424363, df = 11, P < 0.0001

Scalata Pearson bontà di adattamento = 10, df = 10, P = 0.4405

Bontà della devianza scalata = 10,257687, df = 10, P = 0,4182

Parametro Coefficiente Errore standard
Costante -9,324832 0.204506
Veterani -0.003528 0.055478
Gruppo di età (25-29) 0.679314 0.232493
Gruppo di età (30-34) 1.371085 0.217708
Gruppo di età (35-39) 1.939619 0.212062
Gruppo di età (40-44) 2.034323 0.216099
Gruppo di età (45-49) 2.726551 0.222221
Gruppo di età (50-54) 3.202873 0.220645
Gruppo di età (55-59) 3.716187 0.217775
Gruppo di età (60-64) 4.092676 0.217682
Gruppo di età (65-69) 4.23621 0.224224
Gruppo di età (70+) 4.363717 0.227374
Parametro Errore standard scalato Scalata Wald z
Costante 0.145847 -63.935674 P < 0.0001
Veterani 0.039565 -0.089162 P = 0.929
Gruppo di età (25-29) 0.165806 4.097037 P < 0.0001
Gruppo di età (30-34) 0.155262 8.830792 P < 0.0001
Gruppo di età (35-39) 0.151235 12.825169 P < 0.0001
Gruppo di età (40-44) 0.154115 13.200054 P < 0.0001
Gruppo di età (45-49) 0.158481 17.204308 P < 0.0001
Gruppo di età (50-54) 0.157357 20.354193 P < 0.0001
Gruppo di età (55-59) 0.15531 23.927605 P < 0.0001
Gruppo di età (60-64) 0.155243 26.362975 P < 0.0001
Gruppo di età (65-69) 0.159909 26.491421 P < 0.0001
Gruppo di età (70+) 0.162155 26.910733 P < 0.0001

Lascia un commento

Il tuo indirizzo email non sarà pubblicato.