Régression de Poisson (taux d'incidence)

Emplacement du menu : Analyse_Régression et corrélation_Poisson

Cette fonction ajuste un modèle de régression de Poisson pour l’analyse multivariée des nombres d’événements peu fréquents dans les études de cohorte.

Le modèle de régression de Poisson multiplicatif est ajusté comme une régression log-linéaire (c’est-à-dire.c’est-à-dire un lien logarithmique et une distribution d’erreur de Poisson), avec un décalage égal au logarithme naturel du temps-personne si le temps-personne est spécifié (McCullagh et Nelder, 1989 ; Frome, 1983 ; Agresti, 2002). Avec le modèle de Poisson multiplicatif, les exposants des coefficients sont égaux au rapport des taux d’incidence (risque relatif). Ces risques relatifs de base donnent des valeurs relatives à des covariables nommées pour l’ensemble de la population. Vous pouvez définir des risques relatifs pour une sous-population en multipliant le risque relatif de base de cette sous-population avec les risques relatifs dus à d’autres groupes de covariables, par exemple le risque relatif de mourir d’un cancer du poumon si vous êtes un fumeur qui a vécu dans une zone à forte teneur en radon. StatsDirect propose des risques relatifs de sous-population pour les covariables dichotomiques.

La variable de résultat/réponse est supposée provenir d’une distribution de Poisson. Notez qu’une distribution de Poisson est la distribution du nombre d’événements dans un intervalle de temps fixe, à condition que les événements se produisent au hasard, indépendamment dans le temps et à un taux constant. Les distributions de Poisson sont utilisées pour modéliser les événements par unité d’espace ainsi que de temps, par exemple le nombre de particules par centimètre carré.

La régression de Poisson peut également être utilisée pour la modélisation log-linéaire des données de tableaux de contingence, et pour la modélisation multinomiale. Pour les comptages des tableaux de contingence, vous créeriez r + c variables indicatrices/dummy comme covariables, représentant les r lignes et c colonnes du tableau de contingence :

r1c1	r1c2	r1c3
r2c1	r2c2	r2c3
r3c1	r3c2	r3c3

Réponse	x_r1	x_r2	x_r3	x_c1	x_c2	x_c3
r1c1	1	0	0	1	0	0
r1c2	1	0	0	0
r1c3	1	0	0	0	0	1
r2c1	0	1	0	1	0	0
r2c2	0	1	0	0	0	0
r2c3	0	1	0	0	0	1
r3c1	0	0	1	1	0	0
r3c2	0	0	1	0	1	0
r3c3	0	0	1	0	0	1

Adéquation du modèle

Pour évaluer l’adéquation du modèle de régression de Poisson, vous devez d’abord examiner les statistiques descriptives de base des données de comptage des événements. Si la moyenne et la variance du comptage sont très différentes (équivalentes dans une distribution de Poisson), alors le modèle est susceptible d’être surdispersé.

L’option d’analyse du modèle donne un paramètre d’échelle (sp) comme mesure de la surdispersion ; il est égal à la statistique du chi-deux de Pearson divisée par le nombre d’observations moins le nombre de paramètres (covariables et interception). Les variances des coefficients peuvent être ajustées en les multipliant par sp. Les statistiques du test d’adéquation et les résidus peuvent être ajustés en les divisant par sp. En utilisant une approche de quasi-vraisemblance, sp pourrait être intégré à la régression, mais cela supposerait une valeur fixe connue pour sp, ce qui est rarement le cas. Une meilleure approche des modèles de Poisson surdispersés consiste à utiliser un modèle alternatif paramétrique, le binôme négatif.

La statistique de test de déviance (rapport de vraisemblance), G², est le résumé le plus utile de l’adéquation du modèle ajusté. Elle représente la variation de la déviance entre le modèle ajusté et le modèle avec un terme constant et sans covariables ; par conséquent, G² n’est pas calculé si aucune constante n’est spécifiée. Si ce test est significatif alors les covariables contribuent de manière significative au modèle.

Le test de qualité d’ajustement de la déviance reflète l’ajustement des données à une distribution de Poisson dans la régression. Si ce test est significatif, alors un astérisque rouge est indiqué par la valeur P, et vous devez envisager d’autres covariables et/ou d’autres distributions d’erreurs telles que la binomiale négative.

StatsDirect n’exclut pas/ne supprime pas les covariables de sa régression de Poisson si elles sont fortement corrélées entre elles. Les modèles qui ne sont pas de rang complet (rang = nombre de paramètres) sont pleinement estimés dans la plupart des circonstances, mais vous devez généralement envisager de combiner ou d’exclure des variables, ou éventuellement d’exclure le terme constant. Vous devez faire appel à un expert statistique si vous vous trouvez dans cette situation.

Validation technique

La fonction de déviance est :

– où y est le nombre d’événements, n est le nombre d’observations et μ est la moyenne de Poisson ajustée.

La fonction de log-vraisemblance est :

La régression par maximum de vraisemblance procède par moindres carrés itérativement repondérés, en utilisant la décomposition en valeurs singulières pour résoudre le système linéaire à chaque itération, jusqu’à ce que le changement de déviance soit dans la précision spécifiée.

Le résidu du chi carré de Pearson est:

La statistique du test de qualité d’ajustement de Pearson est :

Le résidu de déviance est (Cook et Weisberg, 1982) :

-où D(observation, ajustement) est la déviance et sgn(x) est le signe de x.

Le résidu de Freeman-Tukey, stabilisé par la variance, est (Freeman et Tukey, 1950) :

Le résidu normalisé est :

– où h est le levier (diagonale de la matrice de Hat).

Exemple

D’Armitage et al. (2001):

Cahier de travail de test (feuille de calcul de régression : Cancers, sujets-années, vétérans, groupe d’âge).

Pour analyser ces données avec StatsDirect, vous devez d’abord ouvrir le cahier de travail de test en utilisant la fonction d’ouverture de fichier du menu fichier. Ensuite, générez un ensemble de variables fictives pour représenter les niveaux de la variable « Groupe d’âge » en utilisant la fonction Variables fictives du menu Données. Sélectionnez ensuite Poisson dans la section Régression et corrélation du menu Analyse. Cliquez sur l’option « Counts of events and exposure (person-time), et sélectionnez le type de données de réponse comme étant « Individual ». Sélectionnez la colonne intitulée « Cancers » lorsqu’on vous demande de répondre. Sélectionnez ensuite « Années-sujet » lorsqu’on vous demande la réponse « personne-temps ». Sélectionnez ensuite « Vétérans », « Groupe d’âge (25-29) » , « Groupe d’âge (30-34) » etc. en une seule action lorsqu’on vous demande les prédicteurs.

Pour cet exemple :

Régression de Poisson

Déviance (rapport de vraisemblance) chi-carré = 2067.700372 df = 11 P < 0,0001

Interception	b0 = -9,324832	z = -45.596773	P < 0.0001
Vétérans	b1 = -0.003528	z = -0.063587	P = 0,9493
Groupe d’âge (25-29)	b2 = 0,679314	z = 2.921869	P = 0,0035
Groupe d’âge (30-34)	b3 = 1,371085	z = 6.297824	P < 0,0001
Groupe d’âge (35-39)	b4 = 1.939619	z = 9,14648	P < 0,0001
Groupe d’âge (40-44)	b5 = 2.034323	z = 9,413835	P < 0,0001
Groupe d’âge (45-49)	b6 = 2,726551	z = 12,269534	P < 0.0001
Groupe d’âge (50-54)	b7 = 3,202873	z = 14,515926	P < 0.0001
Groupe d’âge (55-59)	b8 = 3,716187	z = 17,064363	P < 0.0001
Groupe d’âge (60-64)	b9 = 4,092676	z = 18.801188	P < 0,0001
Groupe d’âge (65-69)	b10 = 4,23621	z = 18.892791	P < 0,0001
Groupe d’âge (70+)	b11 = 4,363717	z = 19.19183	P < 0,0001

log Cancers = -9,324832 -0,003528 Anciens combattants +0.679314 Groupe d’âge (25-29) +1,371085 Groupe d’âge (30-34) +1,939619 Groupe d’âge (35-39) +2,034323 Groupe d’âge (40-44) +2,726551 Groupe d’âge (45-49) +3,202873 Groupe d’âge (50-54) +3,716187 Groupe d’âge (55-59) +4,092676 Groupe d’âge (60-64) +4,23621 Groupe d’âge (65-69) +4.363717 Groupe d’âge (70+)

Régression de Poisson – rapports de taux d’incidence

Population d’inférence : ensemble de l’étude (risque de base)

Paramètre	Estimation	IRR	Incidence à 95 %
Vétérans	-0.003528	0,996479	0,89381 à 1,11094
Groupe d’âge (25-29)	0,679314	1,972524	1,250616 à 3.111147
Groupe d’âge (30-34)	1,371085	3,939622	2,571233 à 6,036256
Groupe d’âge (35-39)	1.939619	6,956098	4,590483 à 10,540786
Groupe d’âge (40-44)	2.034323	7,647073	5,006696 à 11,679905
Groupe d’âge (45-49)	2.726551	15,280093	9,884869 à 23,620062
Groupe d’âge (50-54)	3.202873	24,60311	15,96527 à 37,914362
Groupe d’âge (55-59)	3.716187	41,107367	26,825601 à 62,992647
Groupe d’âge (60-64)	4,092676	59,899957	39,096281 à 91.773558
Groupe d’âge (65-69)	4.23621	69.145275	44.555675 à 107.305502
Groupe d’âge (70+)	4.363717	78.54856	50.303407 à 122.653248

Régression de Poisson – analyse du modèle

Accuracy = 1.00E-07

Log likelihood with all covariates = -66.006668

Deviance with all covariates = 5.217124, df = 10, rang = 12

Critère d’information d’Akike = 29,217124

Critère d’information de Schwartz = 45,400676

Déviance sans covariables = 2072,917496

Déviance (rapport de vraisemblance, G²) = 2067.700372, df = 11, P < 0,0001

Pseudo (McFadden) R-carré = 0,997483

Pseudo (indice de rapport de vraisemblance) R-carré = 0,939986

Bonne adéquation de Pearson = 5,086063, df = 10, P = 0.8854

Bonne adéquation de la déviance = 5,217124, df = 10, P = 0,8762

Paramètre d’échelle de surdispersion = 0.508606

G² échelonné = 4065,424363, df = 11, P < 0,0001

Bonne adéquation de Pearson échelonnée = 10, df = 10, P = 0.4405

Déviance à l’échelle : qualité de l’ajustement = 10,257687, df = 10, P = 0,4182

Paramètre	Coefficient	Erreur standard
Constante	-9,324832	0.204506
Vétérans	-0,003528	0,055478
Groupe d’âge (25-29)	0.679314	0,232493
Groupe d’âge (30-34)	1.371085	0,217708
Groupe d’âge (35-39)	1,939619	0,212062
Groupe d’âge (40-44)	2,034323	0.216099
Groupe d’âge (45-49)	2.726551	0.222221
Groupe d’âge (50-54)	3.202873	0.220645
Groupe d’âge (55-59)	3.716187	0,217775
Groupe d’âge (60-64)	4,092676	0.217682
Groupe d’âge (65-69)	4.23621	0.224224
Groupe d’âge (70+)	4.363717	0,227374

Paramètre	Erreur standard échelonnée	Erreur Wald z échelonnée
Constante	0.145847	-63,935674	P < 0,0001
Vétérans	0.039565	-0,089162	P = 0,929
Groupe d’âge (25-29)	0.165806	4,097037	P < 0,0001
Groupe d’âge (30-34)	0.155262	8,830792	P < 0,0001
Groupe d’âge (35-39)	0.151235	12,825169	P < 0,0001
Groupe d’âge (40-44)	0.154115	13,200054	P < 0,0001
Groupe d’âge (45-49)	0.158481	17,204308	P < 0,0001
Groupe d’âge (50-54)	0.157357	20,354193	P < 0,0001
Groupe d’âge (55-59)	0.15531	23,927605	P < 0,0001
Groupe d’âge (60-64)	0.155243	26,362975	P < 0,0001
Groupe d’âge (65-69)	0.159909	26,491421	P < 0,0001
Groupe d’âge (70+)	0,162155	26,910733	P < 0,0001

Laisser un commentaire Annuler la réponse