Régression de Poisson

Emplacement du menu : Analyse_Régression et corrélation_Poisson

Cette fonction ajuste un modèle de régression de Poisson pour l’analyse multivariée des nombres d’événements peu fréquents dans les études de cohorte.

Le modèle de régression de Poisson multiplicatif est ajusté comme une régression log-linéaire (c’est-à-dire.c’est-à-dire un lien logarithmique et une distribution d’erreur de Poisson), avec un décalage égal au logarithme naturel du temps-personne si le temps-personne est spécifié (McCullagh et Nelder, 1989 ; Frome, 1983 ; Agresti, 2002). Avec le modèle de Poisson multiplicatif, les exposants des coefficients sont égaux au rapport des taux d’incidence (risque relatif). Ces risques relatifs de base donnent des valeurs relatives à des covariables nommées pour l’ensemble de la population. Vous pouvez définir des risques relatifs pour une sous-population en multipliant le risque relatif de base de cette sous-population avec les risques relatifs dus à d’autres groupes de covariables, par exemple le risque relatif de mourir d’un cancer du poumon si vous êtes un fumeur qui a vécu dans une zone à forte teneur en radon. StatsDirect propose des risques relatifs de sous-population pour les covariables dichotomiques.

La variable de résultat/réponse est supposée provenir d’une distribution de Poisson. Notez qu’une distribution de Poisson est la distribution du nombre d’événements dans un intervalle de temps fixe, à condition que les événements se produisent au hasard, indépendamment dans le temps et à un taux constant. Les distributions de Poisson sont utilisées pour modéliser les événements par unité d’espace ainsi que de temps, par exemple le nombre de particules par centimètre carré.

La régression de Poisson peut également être utilisée pour la modélisation log-linéaire des données de tableaux de contingence, et pour la modélisation multinomiale. Pour les comptages des tableaux de contingence, vous créeriez r + c variables indicatrices/dummy comme covariables, représentant les r lignes et c colonnes du tableau de contingence :

r1c1 r1c2 r1c3
r2c1 r2c2 r2c3
r3c1 r3c2 r3c3

.

.

Réponse x_r1 x_r2 x_r3 x_c1 x_c2 x_c3
r1c1 1 0 0 1 0 0
r1c2 1 0 0 0
r1c3 1 0 0 0 0 1
r2c1 0 1 0 1 0 0
r2c2 0 1 0 0 0 0
r2c3 0 1 0 0 0 1
r3c1 0 0 1 1 0 0
r3c2 0 0 1 0 1 0
r3c3 0 0 1 0 0 1

Adéquation du modèle

Pour évaluer l’adéquation du modèle de régression de Poisson, vous devez d’abord examiner les statistiques descriptives de base des données de comptage des événements. Si la moyenne et la variance du comptage sont très différentes (équivalentes dans une distribution de Poisson), alors le modèle est susceptible d’être surdispersé.

L’option d’analyse du modèle donne un paramètre d’échelle (sp) comme mesure de la surdispersion ; il est égal à la statistique du chi-deux de Pearson divisée par le nombre d’observations moins le nombre de paramètres (covariables et interception). Les variances des coefficients peuvent être ajustées en les multipliant par sp. Les statistiques du test d’adéquation et les résidus peuvent être ajustés en les divisant par sp. En utilisant une approche de quasi-vraisemblance, sp pourrait être intégré à la régression, mais cela supposerait une valeur fixe connue pour sp, ce qui est rarement le cas. Une meilleure approche des modèles de Poisson surdispersés consiste à utiliser un modèle alternatif paramétrique, le binôme négatif.

La statistique de test de déviance (rapport de vraisemblance), G², est le résumé le plus utile de l’adéquation du modèle ajusté. Elle représente la variation de la déviance entre le modèle ajusté et le modèle avec un terme constant et sans covariables ; par conséquent, G² n’est pas calculé si aucune constante n’est spécifiée. Si ce test est significatif alors les covariables contribuent de manière significative au modèle.

Le test de qualité d’ajustement de la déviance reflète l’ajustement des données à une distribution de Poisson dans la régression. Si ce test est significatif, alors un astérisque rouge est indiqué par la valeur P, et vous devez envisager d’autres covariables et/ou d’autres distributions d’erreurs telles que la binomiale négative.

StatsDirect n’exclut pas/ne supprime pas les covariables de sa régression de Poisson si elles sont fortement corrélées entre elles. Les modèles qui ne sont pas de rang complet (rang = nombre de paramètres) sont pleinement estimés dans la plupart des circonstances, mais vous devez généralement envisager de combiner ou d’exclure des variables, ou éventuellement d’exclure le terme constant. Vous devez faire appel à un expert statistique si vous vous trouvez dans cette situation.

Validation technique

La fonction de déviance est :

– où y est le nombre d’événements, n est le nombre d’observations et μ est la moyenne de Poisson ajustée.

La fonction de log-vraisemblance est :

La régression par maximum de vraisemblance procède par moindres carrés itérativement repondérés, en utilisant la décomposition en valeurs singulières pour résoudre le système linéaire à chaque itération, jusqu’à ce que le changement de déviance soit dans la précision spécifiée.

Le résidu du chi carré de Pearson est:

La statistique du test de qualité d’ajustement de Pearson est :

Le résidu de déviance est (Cook et Weisberg, 1982) :

-où D(observation, ajustement) est la déviance et sgn(x) est le signe de x.

Le résidu de Freeman-Tukey, stabilisé par la variance, est (Freeman et Tukey, 1950) :

Le résidu normalisé est :

– où h est le levier (diagonale de la matrice de Hat).

Exemple

D’Armitage et al. (2001):

Cahier de travail de test (feuille de calcul de régression : Cancers, sujets-années, vétérans, groupe d’âge).

Pour analyser ces données avec StatsDirect, vous devez d’abord ouvrir le cahier de travail de test en utilisant la fonction d’ouverture de fichier du menu fichier. Ensuite, générez un ensemble de variables fictives pour représenter les niveaux de la variable « Groupe d’âge » en utilisant la fonction Variables fictives du menu Données. Sélectionnez ensuite Poisson dans la section Régression et corrélation du menu Analyse. Cliquez sur l’option « Counts of events and exposure (person-time), et sélectionnez le type de données de réponse comme étant « Individual ». Sélectionnez la colonne intitulée « Cancers » lorsqu’on vous demande de répondre. Sélectionnez ensuite « Années-sujet » lorsqu’on vous demande la réponse « personne-temps ». Sélectionnez ensuite « Vétérans », « Groupe d’âge (25-29) » , « Groupe d’âge (30-34) » etc. en une seule action lorsqu’on vous demande les prédicteurs.

Pour cet exemple :

Régression de Poisson

Déviance (rapport de vraisemblance) chi-carré = 2067.700372 df = 11 P < 0,0001

Interception b0 = -9,324832 z = -45.596773 P < 0.0001
Vétérans b1 = -0.003528 z = -0.063587 P = 0,9493
Groupe d’âge (25-29) b2 = 0,679314 z = 2.921869 P = 0,0035
Groupe d’âge (30-34) b3 = 1,371085 z = 6.297824 P < 0,0001
Groupe d’âge (35-39) b4 = 1.939619 z = 9,14648 P < 0,0001
Groupe d’âge (40-44) b5 = 2.034323 z = 9,413835 P < 0,0001
Groupe d’âge (45-49) b6 = 2,726551 z = 12,269534 P < 0.0001
Groupe d’âge (50-54) b7 = 3,202873 z = 14,515926 P < 0.0001
Groupe d’âge (55-59) b8 = 3,716187 z = 17,064363 P < 0.0001
Groupe d’âge (60-64) b9 = 4,092676 z = 18.801188 P < 0,0001
Groupe d’âge (65-69) b10 = 4,23621 z = 18.892791 P < 0,0001
Groupe d’âge (70+) b11 = 4,363717 z = 19.19183 P < 0,0001

log Cancers = -9,324832 -0,003528 Anciens combattants +0.679314 Groupe d’âge (25-29) +1,371085 Groupe d’âge (30-34) +1,939619 Groupe d’âge (35-39) +2,034323 Groupe d’âge (40-44) +2,726551 Groupe d’âge (45-49) +3,202873 Groupe d’âge (50-54) +3,716187 Groupe d’âge (55-59) +4,092676 Groupe d’âge (60-64) +4,23621 Groupe d’âge (65-69) +4.363717 Groupe d’âge (70+)

Régression de Poisson – rapports de taux d’incidence

Population d’inférence : ensemble de l’étude (risque de base)

Paramètre Estimation IRR Incidence à 95 %
Vétérans -0.003528 0,996479 0,89381 à 1,11094
Groupe d’âge (25-29) 0,679314 1,972524 1,250616 à 3.111147
Groupe d’âge (30-34) 1,371085 3,939622 2,571233 à 6,036256
Groupe d’âge (35-39) 1.939619 6,956098 4,590483 à 10,540786
Groupe d’âge (40-44) 2.034323 7,647073 5,006696 à 11,679905
Groupe d’âge (45-49) 2.726551 15,280093 9,884869 à 23,620062
Groupe d’âge (50-54) 3.202873 24,60311 15,96527 à 37,914362
Groupe d’âge (55-59) 3.716187 41,107367 26,825601 à 62,992647
Groupe d’âge (60-64) 4,092676 59,899957 39,096281 à 91.773558
Groupe d’âge (65-69) 4.23621 69.145275 44.555675 à 107.305502
Groupe d’âge (70+) 4.363717 78.54856 50.303407 à 122.653248

Régression de Poisson – analyse du modèle

Accuracy = 1.00E-07

Log likelihood with all covariates = -66.006668

Deviance with all covariates = 5.217124, df = 10, rang = 12

Critère d’information d’Akike = 29,217124

Critère d’information de Schwartz = 45,400676

Déviance sans covariables = 2072,917496

Déviance (rapport de vraisemblance, G²) = 2067.700372, df = 11, P < 0,0001

Pseudo (McFadden) R-carré = 0,997483

Pseudo (indice de rapport de vraisemblance) R-carré = 0,939986

Bonne adéquation de Pearson = 5,086063, df = 10, P = 0.8854

Bonne adéquation de la déviance = 5,217124, df = 10, P = 0,8762

Paramètre d’échelle de surdispersion = 0.508606

G² échelonné = 4065,424363, df = 11, P < 0,0001

Bonne adéquation de Pearson échelonnée = 10, df = 10, P = 0.4405

Déviance à l’échelle : qualité de l’ajustement = 10,257687, df = 10, P = 0,4182

Paramètre Coefficient Erreur standard
Constante -9,324832 0.204506
Vétérans -0,003528 0,055478
Groupe d’âge (25-29) 0.679314 0,232493
Groupe d’âge (30-34) 1.371085 0,217708
Groupe d’âge (35-39) 1,939619 0,212062
Groupe d’âge (40-44) 2,034323 0.216099
Groupe d’âge (45-49) 2.726551 0.222221
Groupe d’âge (50-54) 3.202873 0.220645
Groupe d’âge (55-59) 3.716187 0,217775
Groupe d’âge (60-64) 4,092676 0.217682
Groupe d’âge (65-69) 4.23621 0.224224
Groupe d’âge (70+) 4.363717 0,227374
Paramètre Erreur standard échelonnée Erreur Wald z échelonnée
Constante 0.145847 -63,935674 P < 0,0001
Vétérans 0.039565 -0,089162 P = 0,929
Groupe d’âge (25-29) 0.165806 4,097037 P < 0,0001
Groupe d’âge (30-34) 0.155262 8,830792 P < 0,0001
Groupe d’âge (35-39) 0.151235 12,825169 P < 0,0001
Groupe d’âge (40-44) 0.154115 13,200054 P < 0,0001
Groupe d’âge (45-49) 0.158481 17,204308 P < 0,0001
Groupe d’âge (50-54) 0.157357 20,354193 P < 0,0001
Groupe d’âge (55-59) 0.15531 23,927605 P < 0,0001
Groupe d’âge (60-64) 0.155243 26,362975 P < 0,0001
Groupe d’âge (65-69) 0.159909 26,491421 P < 0,0001
Groupe d’âge (70+) 0,162155 26,910733 P < 0,0001

.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.