Emplacement du menu : Analyse_Régression et corrélation_Poisson
Cette fonction ajuste un modèle de régression de Poisson pour l’analyse multivariée des nombres d’événements peu fréquents dans les études de cohorte.
Le modèle de régression de Poisson multiplicatif est ajusté comme une régression log-linéaire (c’est-à-dire.c’est-à-dire un lien logarithmique et une distribution d’erreur de Poisson), avec un décalage égal au logarithme naturel du temps-personne si le temps-personne est spécifié (McCullagh et Nelder, 1989 ; Frome, 1983 ; Agresti, 2002). Avec le modèle de Poisson multiplicatif, les exposants des coefficients sont égaux au rapport des taux d’incidence (risque relatif). Ces risques relatifs de base donnent des valeurs relatives à des covariables nommées pour l’ensemble de la population. Vous pouvez définir des risques relatifs pour une sous-population en multipliant le risque relatif de base de cette sous-population avec les risques relatifs dus à d’autres groupes de covariables, par exemple le risque relatif de mourir d’un cancer du poumon si vous êtes un fumeur qui a vécu dans une zone à forte teneur en radon. StatsDirect propose des risques relatifs de sous-population pour les covariables dichotomiques.
La variable de résultat/réponse est supposée provenir d’une distribution de Poisson. Notez qu’une distribution de Poisson est la distribution du nombre d’événements dans un intervalle de temps fixe, à condition que les événements se produisent au hasard, indépendamment dans le temps et à un taux constant. Les distributions de Poisson sont utilisées pour modéliser les événements par unité d’espace ainsi que de temps, par exemple le nombre de particules par centimètre carré.
La régression de Poisson peut également être utilisée pour la modélisation log-linéaire des données de tableaux de contingence, et pour la modélisation multinomiale. Pour les comptages des tableaux de contingence, vous créeriez r + c variables indicatrices/dummy comme covariables, représentant les r lignes et c colonnes du tableau de contingence :
r1c1 | r1c2 | r1c3 |
r2c1 | r2c2 | r2c3 |
r3c1 | r3c2 | r3c3 |
Réponse | x_r1 | x_r2 | x_r3 | x_c1 | x_c2 | x_c3 |
r1c1 | 1 | 0 | 0 | 1 | 0 | 0 |
r1c2 | 1 | 0 | 0 | 0 | ||
r1c3 | 1 | 0 | 0 | 0 | 0 | 1 |
r2c1 | 0 | 1 | 0 | 1 | 0 | 0 |
r2c2 | 0 | 1 | 0 | 0 | 0 | 0 |
r2c3 | 0 | 1 | 0 | 0 | 0 | 1 |
r3c1 | 0 | 0 | 1 | 1 | 0 | 0 |
r3c2 | 0 | 0 | 1 | 0 | 1 | 0 |
r3c3 | 0 | 0 | 1 | 0 | 0 | 1 |
Adéquation du modèle
Pour évaluer l’adéquation du modèle de régression de Poisson, vous devez d’abord examiner les statistiques descriptives de base des données de comptage des événements. Si la moyenne et la variance du comptage sont très différentes (équivalentes dans une distribution de Poisson), alors le modèle est susceptible d’être surdispersé.
L’option d’analyse du modèle donne un paramètre d’échelle (sp) comme mesure de la surdispersion ; il est égal à la statistique du chi-deux de Pearson divisée par le nombre d’observations moins le nombre de paramètres (covariables et interception). Les variances des coefficients peuvent être ajustées en les multipliant par sp. Les statistiques du test d’adéquation et les résidus peuvent être ajustés en les divisant par sp. En utilisant une approche de quasi-vraisemblance, sp pourrait être intégré à la régression, mais cela supposerait une valeur fixe connue pour sp, ce qui est rarement le cas. Une meilleure approche des modèles de Poisson surdispersés consiste à utiliser un modèle alternatif paramétrique, le binôme négatif.
La statistique de test de déviance (rapport de vraisemblance), G², est le résumé le plus utile de l’adéquation du modèle ajusté. Elle représente la variation de la déviance entre le modèle ajusté et le modèle avec un terme constant et sans covariables ; par conséquent, G² n’est pas calculé si aucune constante n’est spécifiée. Si ce test est significatif alors les covariables contribuent de manière significative au modèle.
Le test de qualité d’ajustement de la déviance reflète l’ajustement des données à une distribution de Poisson dans la régression. Si ce test est significatif, alors un astérisque rouge est indiqué par la valeur P, et vous devez envisager d’autres covariables et/ou d’autres distributions d’erreurs telles que la binomiale négative.
StatsDirect n’exclut pas/ne supprime pas les covariables de sa régression de Poisson si elles sont fortement corrélées entre elles. Les modèles qui ne sont pas de rang complet (rang = nombre de paramètres) sont pleinement estimés dans la plupart des circonstances, mais vous devez généralement envisager de combiner ou d’exclure des variables, ou éventuellement d’exclure le terme constant. Vous devez faire appel à un expert statistique si vous vous trouvez dans cette situation.
Validation technique
La fonction de déviance est :
– où y est le nombre d’événements, n est le nombre d’observations et μ est la moyenne de Poisson ajustée.
La fonction de log-vraisemblance est :
La régression par maximum de vraisemblance procède par moindres carrés itérativement repondérés, en utilisant la décomposition en valeurs singulières pour résoudre le système linéaire à chaque itération, jusqu’à ce que le changement de déviance soit dans la précision spécifiée.
Le résidu du chi carré de Pearson est:
La statistique du test de qualité d’ajustement de Pearson est :
Le résidu de déviance est (Cook et Weisberg, 1982) :
-où D(observation, ajustement) est la déviance et sgn(x) est le signe de x.
Le résidu de Freeman-Tukey, stabilisé par la variance, est (Freeman et Tukey, 1950) :
Le résidu normalisé est :
– où h est le levier (diagonale de la matrice de Hat).
Exemple
D’Armitage et al. (2001):
Cahier de travail de test (feuille de calcul de régression : Cancers, sujets-années, vétérans, groupe d’âge).
Pour analyser ces données avec StatsDirect, vous devez d’abord ouvrir le cahier de travail de test en utilisant la fonction d’ouverture de fichier du menu fichier. Ensuite, générez un ensemble de variables fictives pour représenter les niveaux de la variable « Groupe d’âge » en utilisant la fonction Variables fictives du menu Données. Sélectionnez ensuite Poisson dans la section Régression et corrélation du menu Analyse. Cliquez sur l’option « Counts of events and exposure (person-time), et sélectionnez le type de données de réponse comme étant « Individual ». Sélectionnez la colonne intitulée « Cancers » lorsqu’on vous demande de répondre. Sélectionnez ensuite « Années-sujet » lorsqu’on vous demande la réponse « personne-temps ». Sélectionnez ensuite « Vétérans », « Groupe d’âge (25-29) » , « Groupe d’âge (30-34) » etc. en une seule action lorsqu’on vous demande les prédicteurs.
Pour cet exemple :
Régression de Poisson
Déviance (rapport de vraisemblance) chi-carré = 2067.700372 df = 11 P < 0,0001
Interception | b0 = -9,324832 | z = -45.596773 | P < 0.0001 |
Vétérans | b1 = -0.003528 | z = -0.063587 | P = 0,9493 |
Groupe d’âge (25-29) | b2 = 0,679314 | z = 2.921869 | P = 0,0035 |
Groupe d’âge (30-34) | b3 = 1,371085 | z = 6.297824 | P < 0,0001 |
Groupe d’âge (35-39) | b4 = 1.939619 | z = 9,14648 | P < 0,0001 |
Groupe d’âge (40-44) | b5 = 2.034323 | z = 9,413835 | P < 0,0001 |
Groupe d’âge (45-49) | b6 = 2,726551 | z = 12,269534 | P < 0.0001 |
Groupe d’âge (50-54) | b7 = 3,202873 | z = 14,515926 | P < 0.0001 |
Groupe d’âge (55-59) | b8 = 3,716187 | z = 17,064363 | P < 0.0001 |
Groupe d’âge (60-64) | b9 = 4,092676 | z = 18.801188 | P < 0,0001 |
Groupe d’âge (65-69) | b10 = 4,23621 | z = 18.892791 | P < 0,0001 |
Groupe d’âge (70+) | b11 = 4,363717 | z = 19.19183 | P < 0,0001 |
log Cancers = -9,324832 -0,003528 Anciens combattants +0.679314 Groupe d’âge (25-29) +1,371085 Groupe d’âge (30-34) +1,939619 Groupe d’âge (35-39) +2,034323 Groupe d’âge (40-44) +2,726551 Groupe d’âge (45-49) +3,202873 Groupe d’âge (50-54) +3,716187 Groupe d’âge (55-59) +4,092676 Groupe d’âge (60-64) +4,23621 Groupe d’âge (65-69) +4.363717 Groupe d’âge (70+)
Régression de Poisson – rapports de taux d’incidence
Population d’inférence : ensemble de l’étude (risque de base)
Paramètre | Estimation | IRR | Incidence à 95 % |
Vétérans | -0.003528 | 0,996479 | 0,89381 à 1,11094 |
Groupe d’âge (25-29) | 0,679314 | 1,972524 | 1,250616 à 3.111147 |
Groupe d’âge (30-34) | 1,371085 | 3,939622 | 2,571233 à 6,036256 |
Groupe d’âge (35-39) | 1.939619 | 6,956098 | 4,590483 à 10,540786 |
Groupe d’âge (40-44) | 2.034323 | 7,647073 | 5,006696 à 11,679905 |
Groupe d’âge (45-49) | 2.726551 | 15,280093 | 9,884869 à 23,620062 |
Groupe d’âge (50-54) | 3.202873 | 24,60311 | 15,96527 à 37,914362 |
Groupe d’âge (55-59) | 3.716187 | 41,107367 | 26,825601 à 62,992647 |
Groupe d’âge (60-64) | 4,092676 | 59,899957 | 39,096281 à 91.773558 |
Groupe d’âge (65-69) | 4.23621 | 69.145275 | 44.555675 à 107.305502 |
Groupe d’âge (70+) | 4.363717 | 78.54856 | 50.303407 à 122.653248 |
Régression de Poisson – analyse du modèle
Accuracy = 1.00E-07
Log likelihood with all covariates = -66.006668
Deviance with all covariates = 5.217124, df = 10, rang = 12
Critère d’information d’Akike = 29,217124
Critère d’information de Schwartz = 45,400676
Déviance sans covariables = 2072,917496
Déviance (rapport de vraisemblance, G²) = 2067.700372, df = 11, P < 0,0001
Pseudo (McFadden) R-carré = 0,997483
Pseudo (indice de rapport de vraisemblance) R-carré = 0,939986
Bonne adéquation de Pearson = 5,086063, df = 10, P = 0.8854
Bonne adéquation de la déviance = 5,217124, df = 10, P = 0,8762
Paramètre d’échelle de surdispersion = 0.508606
G² échelonné = 4065,424363, df = 11, P < 0,0001
Bonne adéquation de Pearson échelonnée = 10, df = 10, P = 0.4405
Déviance à l’échelle : qualité de l’ajustement = 10,257687, df = 10, P = 0,4182
Paramètre | Coefficient | Erreur standard |
Constante | -9,324832 | 0.204506 |
Vétérans | -0,003528 | 0,055478 |
Groupe d’âge (25-29) | 0.679314 | 0,232493 |
Groupe d’âge (30-34) | 1.371085 | 0,217708 |
Groupe d’âge (35-39) | 1,939619 | 0,212062 |
Groupe d’âge (40-44) | 2,034323 | 0.216099 |
Groupe d’âge (45-49) | 2.726551 | 0.222221 |
Groupe d’âge (50-54) | 3.202873 | 0.220645 |
Groupe d’âge (55-59) | 3.716187 | 0,217775 |
Groupe d’âge (60-64) | 4,092676 | 0.217682 |
Groupe d’âge (65-69) | 4.23621 | 0.224224 |
Groupe d’âge (70+) | 4.363717 | 0,227374 |
Paramètre | Erreur standard échelonnée | Erreur Wald z échelonnée | |
Constante | 0.145847 | -63,935674 | P < 0,0001 |
Vétérans | 0.039565 | -0,089162 | P = 0,929 |
Groupe d’âge (25-29) | 0.165806 | 4,097037 | P < 0,0001 |
Groupe d’âge (30-34) | 0.155262 | 8,830792 | P < 0,0001 |
Groupe d’âge (35-39) | 0.151235 | 12,825169 | P < 0,0001 |
Groupe d’âge (40-44) | 0.154115 | 13,200054 | P < 0,0001 |
Groupe d’âge (45-49) | 0.158481 | 17,204308 | P < 0,0001 |
Groupe d’âge (50-54) | 0.157357 | 20,354193 | P < 0,0001 |
Groupe d’âge (55-59) | 0.15531 | 23,927605 | P < 0,0001 |
Groupe d’âge (60-64) | 0.155243 | 26,362975 | P < 0,0001 |
Groupe d’âge (65-69) | 0.159909 | 26,491421 | P < 0,0001 |
Groupe d’âge (70+) | 0,162155 | 26,910733 | P < 0,0001 |
.