Poisson Regression (Incidence Rate Ratio)

Posizione del menu: Analysis_Regression and Correlation_Poisson

Questa funzione adatta un modello di regressione di Poisson per l’analisi multivariata del numero di eventi non comuni negli studi di coorte.cioè un legame log e una distribuzione di errore di Poisson), con un offset pari al logaritmo naturale del tempo-persona se il tempo-persona è specificato (McCullagh e Nelder, 1989; Frome, 1983; Agresti, 2002). Con il modello Poisson moltiplicativo, gli esponenti dei coefficienti sono uguali al rapporto del tasso di incidenza (rischio relativo). Questi rischi relativi di base danno valori relativi alle covariate nominate per l’intera popolazione. È possibile definire i rischi relativi per una sottopopolazione moltiplicando il rischio relativo di base di quella sottopopolazione con i rischi relativi dovuti ad altri raggruppamenti di covariate, per esempio il rischio relativo di morire di cancro ai polmoni se sei un fumatore che ha vissuto in una zona ad alto contenuto di radon. StatsDirect offre rischi relativi di sottopopolazione per covariate dicotomiche.

La variabile risultato/risposta si assume provenga da una distribuzione di Poisson. Si noti che una distribuzione di Poisson è la distribuzione del numero di eventi in un intervallo di tempo fisso, a condizione che gli eventi si verifichino in modo casuale, indipendentemente nel tempo e ad un tasso costante. Le distribuzioni di Poisson sono usate per modellare gli eventi per unità di spazio e di tempo, per esempio il numero di particelle per centimetro quadrato.

La regressione Poisson può anche essere usata per la modellazione log-lineare dei dati delle tabelle di contingenza, e per la modellazione multinomiale. Per i conteggi delle tabelle di contingenza dovreste creare r + c variabili indicatrici/dummy come covariate, che rappresentano le righe r e le colonne c della tabella di contingenza:

r1c1	r1c2	r1c3
r2c1	r2c2	r2c3
r3c1	r3c2	r3c3

Risposta	x_r1	x_r2	x_r3	x_c1	x_c2	x_c3
r1c1	1	0	0	1	0	0
r1c2	1	0	0	0	0	1	0
r1c3	1	0	0	0	0	1
r2c1	0	1	0	1	0	0
r2c2	0	1	0	0	1	0
r2c3	0	1	1	0	0	0	1
r3c1	0	0	1	1	0	0
r3c2	0	0	1	0	1	0
r3c3	0	0	0	1	0	0	1

Adeguatezza del modello

Per valutare l’adeguatezza del modello di regressione di Poisson dovresti prima guardare le statistiche descrittive di base per i dati del conteggio degli eventi. Se la media e la varianza del conteggio sono molto diverse (equivalenti in una distribuzione di Poisson) allora è probabile che il modello sia sovradisperso.

L’opzione di analisi del modello fornisce un parametro di scala (sp) come misura della sovradispersione; questo è uguale alla statistica chi-quadro di Pearson divisa per il numero di osservazioni meno il numero di parametri (covariate e intercetta). Le varianze dei coefficienti possono essere aggiustate moltiplicando per sp. Le statistiche del test di bontà dell’adattamento e i residui possono essere aggiustati dividendo per sp. Usando un approccio di quasi-liquidità sp potrebbe essere integrato con la regressione, ma questo presupporrebbe un valore fisso noto per sp, che raramente è il caso. Un approccio migliore ai modelli Poisson sovradimensionati è quello di utilizzare un modello alternativo parametrico, il binomiale negativo.

La devianza (likelihood ratio) statistica del test, G², è la sintesi più utile dell’adeguatezza del modello adattato. Rappresenta la variazione della devianza tra il modello adattato e il modello con un termine costante e nessuna covariata; quindi G² non viene calcolato se non viene specificata alcuna costante. Se questo test è significativo, allora le covariate contribuiscono significativamente al modello.

Il test della devianza riflette l’adattamento dei dati a una distribuzione di Poisson nella regressione. Se questo test è significativo, allora un asterisco rosso è mostrato dal valore P, e dovresti considerare altre covariate e/o altre distribuzioni di errore come la binomiale negativa.

StatsDirect non esclude/elimina le covariate dalla sua regressione Poisson se sono altamente correlate tra loro. I modelli che non sono di rango pieno (rango = numero di parametri) sono completamente stimati nella maggior parte delle circostanze, ma di solito dovreste considerare di combinare o escludere le variabili, o eventualmente escludere il termine costante. Dovreste cercare un esperto statistico se vi trovate in questa situazione.

Valutazione tecnica

La funzione di devianza è:

– dove y è il numero di eventi, n è il numero di osservazioni e μ è la media di Poisson applicata.

La funzione di log-liquidità è:

La regressione a massima verosimiglianza procede per minimi quadrati iterativamente riponderati, usando la decomposizione dei valori singolari per risolvere il sistema lineare ad ogni iterazione, finché il cambiamento nella devianza è entro la precisione specificata.

Il residuo chi-quadro di Pearson è:

La statistica del test di bontà di Pearson è:

Il residuo di devianza è (Cook e Weisberg, 1982):

-dove D(observation, fit) è la devianza e sgn(x) è il segno di x.

Il residuo Freeman-Tukey, varianza stabilizzata, è (Freeman e Tukey, 1950):

Il residuo standardizzato è:

– dove h è la leva (diagonale della matrice Hat).

Esempio

Da Armitage et al. (2001):

Libro di lavoro di prova (foglio di lavoro Regressione: Tumori, Anni-soggetto, Veterani, Gruppo di età).

Per analizzare questi dati con StatsDirect dovete prima aprire il libro di lavoro di prova usando la funzione di apertura del file del menu file. Poi generate un set di variabili dummy per rappresentare i livelli della variabile “Gruppo d’età” usando la funzione Dummy Variables del menu Data. Poi seleziona Poisson dalla sezione Regressione e Correlazione del menu Analisi. Clicca sull’opzione “Conteggi di eventi ed esposizione (persona-tempo), e seleziona il tipo di dati di risposta come “Individuale”. Seleziona la colonna “Cancri” quando ti viene chiesta la risposta. Poi seleziona “Anni-soggetto” quando ti viene chiesto il tempo-persona. Poi selezionate “Veterani”, “Gruppo di età (25-29)”, “Gruppo di età (30-34)” ecc. in una sola azione quando vi viene chiesto dei predittori.

Per questo esempio:

Regressione Poisson

Devianza (likelihood ratio) chi-quadrato = 2067.700372 df = 11 P < 0.0001

Intercetta	b0 = -9.324832	z = -45.596773	P < 0,0001
Veterani	b1 = -0,003528	z = -0.063587	P = 0,9493
Gruppo di età (25-29)	b2 = 0,679314	z = 2.921869	P = 0,0035
Gruppo di età (30-34)	b3 = 1,371085	z = 6.297824	P < 0,0001
Gruppo di età (35-39)	b4 = 1.939619	z = 9,14648	P < 0,0001
Gruppo di età (40-44)	b5 = 2.034323	z = 9.413835	P < 0.0001
Gruppo di età (45-49)	b6 = 2.726551	z = 12.269534	P < 0.0001
Gruppo di età (50-54)	b7 = 3.202873	z = 14.515926	P < 0.0001
Gruppo di età (55-59)	b8 = 3.716187	z = 17.064363	P < 0.0001
Gruppo di età (60-64)	b9 = 4.092676	z = 18.801188	P < 0.0001
Gruppo di età (65-69)	b10 = 4.23621	z = 18.892791	P < 0.0001
Gruppo di età (70+)	b11 = 4.363717	z = 19.19183	P < 0.0001

log Cancers = -9.324832 -0.003528 Veterani +0.679314 Gruppo di età (25-29) +1.371085 Gruppo di età (30-34) +1.939619 Gruppo di età (35-39) +2.034323 Gruppo di età (40-44) +2.726551 Gruppo di età (45-49) +3.202873 Gruppo di età (50-54) +3.716187 Gruppo di età (55-59) +4.092676 Gruppo di età (60-64) +4.23621 Gruppo di età (65-69) +4.363717 Gruppo di età (70+)

Regressione Poisson – rapporti di incidenza

Popolazione di riferimento: intero studio (rischio iniziale)

Parametro	Stima	IRR	95% CI
Veterani	-0.003528	0,996479	0,89381 a 1,11094
Gruppo di età (25-29)	0,679314	1,972524	1,250616 a 3.111147
Gruppo di età (30-34)	1.371085	3.939622	2.571233 a 6.036256
Gruppo di età (35-39)	1.939619	6.956098	4.590483 a 10.540786
Gruppo di età (40-44)	2.034323	7.647073	5.006696 a 11.679905
Gruppo di età (45-49)	2.726551	15.280093	9.884869 a 23.620062
Gruppo di età (50-54)	3.202873	24.60311	15.96527 a 37.914362
Gruppo di età (55-59)	3.716187	41.107367	26.825601 a 62.992647
Gruppo di età (60-64)	4.092676	59.899957	39.096281 a 91.773558
Gruppo di età (65-69)	4.23621	69.145275	44.555675 a 107.305502
Gruppo di età (70+)	4.363717	78.54856	50.303407 a 122.653248

Regressione Poisson – analisi del modello

Precisione = 1.00E-07

Log likelihood con tutte le covariate = -66.006668

Devianza con tutte le covariate = 5.217124, df = 10, rank = 12

Criterio di informazione di Akaike = 29.217124

Criterio di informazione di Schwartz = 45.400676

Devianza senza covariate = 2072.917496

Devianza (likelihood ratio, G²) = 2067.700372, df = 11, P < 0.0001

Pseudo (McFadden) R-square = 0.997483

Pseudo (likelihood ratio index) R-square = 0.939986

Pearson goodness of fit = 5.086063, df = 10, P = 0.8854

Bontà di adattamento di Deviance = 5.217124, df = 10, P = 0.8762

Parametro di scala di sovradispersione = 0.508606

Scalata G² = 4065.424363, df = 11, P < 0.0001

Scalata Pearson bontà di adattamento = 10, df = 10, P = 0.4405

Bontà della devianza scalata = 10,257687, df = 10, P = 0,4182

Parametro	Coefficiente	Errore standard
Costante	-9,324832	0.204506
Veterani	-0.003528	0.055478
Gruppo di età (25-29)	0.679314	0.232493
Gruppo di età (30-34)	1.371085	0.217708
Gruppo di età (35-39)	1.939619	0.212062
Gruppo di età (40-44)	2.034323	0.216099
Gruppo di età (45-49)	2.726551	0.222221
Gruppo di età (50-54)	3.202873	0.220645
Gruppo di età (55-59)	3.716187	0.217775
Gruppo di età (60-64)	4.092676	0.217682
Gruppo di età (65-69)	4.23621	0.224224
Gruppo di età (70+)	4.363717	0.227374

Parametro	Errore standard scalato	Scalata Wald z
Costante	0.145847	-63.935674	P < 0.0001
Veterani	0.039565	-0.089162	P = 0.929
Gruppo di età (25-29)	0.165806	4.097037	P < 0.0001
Gruppo di età (30-34)	0.155262	8.830792	P < 0.0001
Gruppo di età (35-39)	0.151235	12.825169	P < 0.0001
Gruppo di età (40-44)	0.154115	13.200054	P < 0.0001
Gruppo di età (45-49)	0.158481	17.204308	P < 0.0001
Gruppo di età (50-54)	0.157357	20.354193	P < 0.0001
Gruppo di età (55-59)	0.15531	23.927605	P < 0.0001
Gruppo di età (60-64)	0.155243	26.362975	P < 0.0001
Gruppo di età (65-69)	0.159909	26.491421	P < 0.0001
Gruppo di età (70+)	0.162155	26.910733	P < 0.0001

Lascia un commento Annulla risposta