Posizione del menu: Analysis_Regression and Correlation_Poisson
Questa funzione adatta un modello di regressione di Poisson per l’analisi multivariata del numero di eventi non comuni negli studi di coorte.cioè un legame log e una distribuzione di errore di Poisson), con un offset pari al logaritmo naturale del tempo-persona se il tempo-persona è specificato (McCullagh e Nelder, 1989; Frome, 1983; Agresti, 2002). Con il modello Poisson moltiplicativo, gli esponenti dei coefficienti sono uguali al rapporto del tasso di incidenza (rischio relativo). Questi rischi relativi di base danno valori relativi alle covariate nominate per l’intera popolazione. È possibile definire i rischi relativi per una sottopopolazione moltiplicando il rischio relativo di base di quella sottopopolazione con i rischi relativi dovuti ad altri raggruppamenti di covariate, per esempio il rischio relativo di morire di cancro ai polmoni se sei un fumatore che ha vissuto in una zona ad alto contenuto di radon. StatsDirect offre rischi relativi di sottopopolazione per covariate dicotomiche.
La variabile risultato/risposta si assume provenga da una distribuzione di Poisson. Si noti che una distribuzione di Poisson è la distribuzione del numero di eventi in un intervallo di tempo fisso, a condizione che gli eventi si verifichino in modo casuale, indipendentemente nel tempo e ad un tasso costante. Le distribuzioni di Poisson sono usate per modellare gli eventi per unità di spazio e di tempo, per esempio il numero di particelle per centimetro quadrato.
La regressione Poisson può anche essere usata per la modellazione log-lineare dei dati delle tabelle di contingenza, e per la modellazione multinomiale. Per i conteggi delle tabelle di contingenza dovreste creare r + c variabili indicatrici/dummy come covariate, che rappresentano le righe r e le colonne c della tabella di contingenza:
r1c1 | r1c2 | r1c3 |
r2c1 | r2c2 | r2c3 |
r3c1 | r3c2 | r3c3 |
Risposta | x_r1 | x_r2 | x_r3 | x_c1 | x_c2 | x_c3 | |
r1c1 | 1 | 0 | 0 | 1 | 0 | 0 | |
r1c2 | 1 | 0 | 0 | 0 | 0 | 1 | 0 |
r1c3 | 1 | 0 | 0 | 0 | 0 | 1 | |
r2c1 | 0 | 1 | 0 | 1 | 0 | 0 | |
r2c2 | 0 | 1 | 0 | 0 | 1 | 0 | |
r2c3 | 0 | 1 | 1 | 0 | 0 | 0 | 1 |
r3c1 | 0 | 0 | 1 | 1 | 0 | 0 | |
r3c2 | 0 | 0 | 1 | 0 | 1 | 0 | |
r3c3 | 0 | 0 | 0 | 1 | 0 | 0 | 1 |
Adeguatezza del modello
Per valutare l’adeguatezza del modello di regressione di Poisson dovresti prima guardare le statistiche descrittive di base per i dati del conteggio degli eventi. Se la media e la varianza del conteggio sono molto diverse (equivalenti in una distribuzione di Poisson) allora è probabile che il modello sia sovradisperso.
L’opzione di analisi del modello fornisce un parametro di scala (sp) come misura della sovradispersione; questo è uguale alla statistica chi-quadro di Pearson divisa per il numero di osservazioni meno il numero di parametri (covariate e intercetta). Le varianze dei coefficienti possono essere aggiustate moltiplicando per sp. Le statistiche del test di bontà dell’adattamento e i residui possono essere aggiustati dividendo per sp. Usando un approccio di quasi-liquidità sp potrebbe essere integrato con la regressione, ma questo presupporrebbe un valore fisso noto per sp, che raramente è il caso. Un approccio migliore ai modelli Poisson sovradimensionati è quello di utilizzare un modello alternativo parametrico, il binomiale negativo.
La devianza (likelihood ratio) statistica del test, G², è la sintesi più utile dell’adeguatezza del modello adattato. Rappresenta la variazione della devianza tra il modello adattato e il modello con un termine costante e nessuna covariata; quindi G² non viene calcolato se non viene specificata alcuna costante. Se questo test è significativo, allora le covariate contribuiscono significativamente al modello.
Il test della devianza riflette l’adattamento dei dati a una distribuzione di Poisson nella regressione. Se questo test è significativo, allora un asterisco rosso è mostrato dal valore P, e dovresti considerare altre covariate e/o altre distribuzioni di errore come la binomiale negativa.
StatsDirect non esclude/elimina le covariate dalla sua regressione Poisson se sono altamente correlate tra loro. I modelli che non sono di rango pieno (rango = numero di parametri) sono completamente stimati nella maggior parte delle circostanze, ma di solito dovreste considerare di combinare o escludere le variabili, o eventualmente escludere il termine costante. Dovreste cercare un esperto statistico se vi trovate in questa situazione.
Valutazione tecnica
La funzione di devianza è:
– dove y è il numero di eventi, n è il numero di osservazioni e μ è la media di Poisson applicata.
La funzione di log-liquidità è:
La regressione a massima verosimiglianza procede per minimi quadrati iterativamente riponderati, usando la decomposizione dei valori singolari per risolvere il sistema lineare ad ogni iterazione, finché il cambiamento nella devianza è entro la precisione specificata.
Il residuo chi-quadro di Pearson è:
La statistica del test di bontà di Pearson è:
Il residuo di devianza è (Cook e Weisberg, 1982):
-dove D(observation, fit) è la devianza e sgn(x) è il segno di x.
Il residuo Freeman-Tukey, varianza stabilizzata, è (Freeman e Tukey, 1950):
Il residuo standardizzato è:
– dove h è la leva (diagonale della matrice Hat).
Esempio
Da Armitage et al. (2001):
Libro di lavoro di prova (foglio di lavoro Regressione: Tumori, Anni-soggetto, Veterani, Gruppo di età).
Per analizzare questi dati con StatsDirect dovete prima aprire il libro di lavoro di prova usando la funzione di apertura del file del menu file. Poi generate un set di variabili dummy per rappresentare i livelli della variabile “Gruppo d’età” usando la funzione Dummy Variables del menu Data. Poi seleziona Poisson dalla sezione Regressione e Correlazione del menu Analisi. Clicca sull’opzione “Conteggi di eventi ed esposizione (persona-tempo), e seleziona il tipo di dati di risposta come “Individuale”. Seleziona la colonna “Cancri” quando ti viene chiesta la risposta. Poi seleziona “Anni-soggetto” quando ti viene chiesto il tempo-persona. Poi selezionate “Veterani”, “Gruppo di età (25-29)”, “Gruppo di età (30-34)” ecc. in una sola azione quando vi viene chiesto dei predittori.
Per questo esempio:
Regressione Poisson
Devianza (likelihood ratio) chi-quadrato = 2067.700372 df = 11 P < 0.0001
Intercetta | b0 = -9.324832 | z = -45.596773 | P < 0,0001 |
Veterani | b1 = -0,003528 | z = -0.063587 | P = 0,9493 |
Gruppo di età (25-29) | b2 = 0,679314 | z = 2.921869 | P = 0,0035 |
Gruppo di età (30-34) | b3 = 1,371085 | z = 6.297824 | P < 0,0001 |
Gruppo di età (35-39) | b4 = 1.939619 | z = 9,14648 | P < 0,0001 |
Gruppo di età (40-44) | b5 = 2.034323 | z = 9.413835 | P < 0.0001 |
Gruppo di età (45-49) | b6 = 2.726551 | z = 12.269534 | P < 0.0001 |
Gruppo di età (50-54) | b7 = 3.202873 | z = 14.515926 | P < 0.0001 |
Gruppo di età (55-59) | b8 = 3.716187 | z = 17.064363 | P < 0.0001 |
Gruppo di età (60-64) | b9 = 4.092676 | z = 18.801188 | P < 0.0001 |
Gruppo di età (65-69) | b10 = 4.23621 | z = 18.892791 | P < 0.0001 |
Gruppo di età (70+) | b11 = 4.363717 | z = 19.19183 | P < 0.0001 |
log Cancers = -9.324832 -0.003528 Veterani +0.679314 Gruppo di età (25-29) +1.371085 Gruppo di età (30-34) +1.939619 Gruppo di età (35-39) +2.034323 Gruppo di età (40-44) +2.726551 Gruppo di età (45-49) +3.202873 Gruppo di età (50-54) +3.716187 Gruppo di età (55-59) +4.092676 Gruppo di età (60-64) +4.23621 Gruppo di età (65-69) +4.363717 Gruppo di età (70+)
Regressione Poisson – rapporti di incidenza
Popolazione di riferimento: intero studio (rischio iniziale)
Parametro | Stima | IRR | 95% CI |
Veterani | -0.003528 | 0,996479 | 0,89381 a 1,11094 |
Gruppo di età (25-29) | 0,679314 | 1,972524 | 1,250616 a 3.111147 |
Gruppo di età (30-34) | 1.371085 | 3.939622 | 2.571233 a 6.036256 |
Gruppo di età (35-39) | 1.939619 | 6.956098 | 4.590483 a 10.540786 |
Gruppo di età (40-44) | 2.034323 | 7.647073 | 5.006696 a 11.679905 |
Gruppo di età (45-49) | 2.726551 | 15.280093 | 9.884869 a 23.620062 |
Gruppo di età (50-54) | 3.202873 | 24.60311 | 15.96527 a 37.914362 |
Gruppo di età (55-59) | 3.716187 | 41.107367 | 26.825601 a 62.992647 |
Gruppo di età (60-64) | 4.092676 | 59.899957 | 39.096281 a 91.773558 |
Gruppo di età (65-69) | 4.23621 | 69.145275 | 44.555675 a 107.305502 |
Gruppo di età (70+) | 4.363717 | 78.54856 | 50.303407 a 122.653248 |
Regressione Poisson – analisi del modello
Precisione = 1.00E-07
Log likelihood con tutte le covariate = -66.006668
Devianza con tutte le covariate = 5.217124, df = 10, rank = 12
Criterio di informazione di Akaike = 29.217124
Criterio di informazione di Schwartz = 45.400676
Devianza senza covariate = 2072.917496
Devianza (likelihood ratio, G²) = 2067.700372, df = 11, P < 0.0001
Pseudo (McFadden) R-square = 0.997483
Pseudo (likelihood ratio index) R-square = 0.939986
Pearson goodness of fit = 5.086063, df = 10, P = 0.8854
Bontà di adattamento di Deviance = 5.217124, df = 10, P = 0.8762
Parametro di scala di sovradispersione = 0.508606
Scalata G² = 4065.424363, df = 11, P < 0.0001
Scalata Pearson bontà di adattamento = 10, df = 10, P = 0.4405
Bontà della devianza scalata = 10,257687, df = 10, P = 0,4182
Parametro | Coefficiente | Errore standard |
Costante | -9,324832 | 0.204506 |
Veterani | -0.003528 | 0.055478 |
Gruppo di età (25-29) | 0.679314 | 0.232493 |
Gruppo di età (30-34) | 1.371085 | 0.217708 |
Gruppo di età (35-39) | 1.939619 | 0.212062 |
Gruppo di età (40-44) | 2.034323 | 0.216099 |
Gruppo di età (45-49) | 2.726551 | 0.222221 |
Gruppo di età (50-54) | 3.202873 | 0.220645 |
Gruppo di età (55-59) | 3.716187 | 0.217775 |
Gruppo di età (60-64) | 4.092676 | 0.217682 |
Gruppo di età (65-69) | 4.23621 | 0.224224 |
Gruppo di età (70+) | 4.363717 | 0.227374 |
Parametro | Errore standard scalato | Scalata Wald z | |
Costante | 0.145847 | -63.935674 | P < 0.0001 |
Veterani | 0.039565 | -0.089162 | P = 0.929 |
Gruppo di età (25-29) | 0.165806 | 4.097037 | P < 0.0001 |
Gruppo di età (30-34) | 0.155262 | 8.830792 | P < 0.0001 |
Gruppo di età (35-39) | 0.151235 | 12.825169 | P < 0.0001 |
Gruppo di età (40-44) | 0.154115 | 13.200054 | P < 0.0001 |
Gruppo di età (45-49) | 0.158481 | 17.204308 | P < 0.0001 |
Gruppo di età (50-54) | 0.157357 | 20.354193 | P < 0.0001 |
Gruppo di età (55-59) | 0.15531 | 23.927605 | P < 0.0001 |
Gruppo di età (60-64) | 0.155243 | 26.362975 | P < 0.0001 |
Gruppo di età (65-69) | 0.159909 | 26.491421 | P < 0.0001 |
Gruppo di età (70+) | 0.162155 | 26.910733 | P < 0.0001 |