ARTICLE
De nombreux travaux d'épidémiologie clinique étudient
les facteurs associés à la présence d'une maladie.
Particulièrement dans le domaine des maladies cardiovasculaires,
fréquemment d'origine multifactorielle [1], il est habituel d'étudier
simultanément l'association entre différents facteurs d'exposition
(par exemple, l'âge, le tabagisme) et la survenue d'un événement
d'intérêt (une maladie, une complication). La note précédente
[2] introduisait la notion de variable dépendante pour désigner
l'événement d'intérêt et de variables explicatives
pour désigner les facteurs d'exposition étudiés.
Cette note introduisait également les méthodes multivariées
en présentant le modèle de régression linéaire
multiple qui s'utilise lorsque la variable dépendante est continue.
Nous présentons ici le modèle de régression logistique,
méthode multivariée de référence dans le cas
où la variable dépendante est qualitative, de type présence/absence,
succès/échec. Dans la mesure où il est plus facile,
en pratique clinique, de raisonner et de prendre des décisions
sur un critère qualitatif (par exemple, présence ou absence
d'hypertension) que sur un critère quantitatif (valeur de la pression
artérielle), on déduit que cette technique d'analyse multivariée
est de très loin la plus utilisée dans la littérature
scientifique biomédicale. La régression logistique présente
en outre un intérêt particulier pour le clinicien puisqu'elle
permet et ceci sera repris par la suite l'estimation des
odds-ratio (rapport des cotes) dont l'interprétation clinique
est plus intuitive que celle d'un coefficient de régression.
Un résumé de la méthode et les différentes
étapes de construction du modèle de régression logistique
sont présentés dans cette note. La démarche est illustrée
à partir d'une étude sur les facteurs pronostiques de succès
de la dilatation mitrale par voie percutanée [3].
Glossaire
Le tableau I résume
les différentes définitions et notations utilisées
dans cette note.
Équation de régression
La variable qualitative Y désigne la maladie et peut prendre
deux valeurs : malade (Y = 1) ou non-malade (Y = 0). Le modèle
logistique, proposé initialement par Cox en 1972 [4], prédit
la probabilité p de survenue de la maladie i.e.
la probabilité qu'un individu soit malade, P(Y = 1) connaissant
les valeurs prises par les k variables explicatives (X1,
X2,..., Xk) (littéralement,
sachant que l'individu est un homme, fumeur, de 30 ans, etc.).
En reprenant le modèle de régression linéaire multiple
décrit dans la note précédente, on pourrait être
tenté d'exprimer la probabilité p de survenue de
la maladie sous la forme d'une combinaison linéaire des k variables
explicatives : ß0 + ß1X1
+ ß2X2 +... + ßkXk
et de tester les coefficients de régression (ß1,
ß2,..., ßk). Néanmoins
une telle équation ne garantit pas que la valeur prédite
de p soit comprise entre 0 et 1 pour toutes les combinaisons de
valeurs prises par les variables explicatives (par exemple, la probabilité
prédite de maladie chez une fillette de 5 ans, non fumeuse, etc.,
pourrait être calculée négative). Pour s'affranchir
de ce problème, une opération mathématique est appliquée
à la probabilité p, la transformant en une variable
continue sur ] (infinity), + (infinity)[ : c'est la transformation
logit (prononcée log-it) dont la méthode tire son nom. L'équation
logistique s'écrit :
logit(p) = logarithme (p /1-p) = ß0
+ ß1X1 + ß2X2
+ ... + ßkXk
L'interprétation des résultats d'une régression
logistique, comme sa formulation, est donc très proche de l'interprétation
des résultats d'une régression linéaire. Ainsi, quand
on désire tester l'association entre la variable dépendante
Y et une variable X1 (quantitative ou qualitative),
avec ajustement sur les autres variables (X2,..., Xk),
c'est sur le coefficient ß1 du modèle que
va porter le test. Une absence de liaison se traduisant par un coefficient
ß1 non différent de zéro. L'intercept ß0
correspond au logit du risque de la maladie lorsque ß1X1
+ ß2X2 +... + ßkXk
vaut zéro, notamment en l'absence d'exposition aux k facteurs (X1
= X2 =... = Xk = 0). On retiendra
que, dans le cas d'une enquête longitudinale (cohorte), ß0
permet l'estimation de la fréquence de base de la maladie en l'absence
d'exposition aux facteurs étudiés ; dans le cas d'une enquête
cas-témoins, ß0 n'a pas de signification
et dépend simplement du nombre de témoins sélectionnés
par cas.
Odds-ratio
ajusté (adjusted odds ratio)
Par sa formulation, le modèle logistique établit une correspondance
directe entre un coefficient de régression ßi
et l'odds-ratio associé à une variable explicative
Xi : eßi est l'odds-ratio
ajusté sur les autres variables explicatives présentes dans
le modèle. Rappelons que l'odds-ratio a une signification
clinique intuitive lorsque la fréquence de l'événement
étudié est rare (p petit dans la population) : il
est approximativement égal au risque relatif [5]. Son interprétation
littérale est décrite ci-dessous en fonction du type de
variables explicatives.
* Variable Xi qualitative à
deux classes
Il s'agit du cas le plus fréquemment rencontré : la variable
explicative Xi a deux modalités (par exemple,
être « fumeur » ou « non fumeur »). L'interprétation
des résultats doit être effectuée très attentivement
en fonction du codage choisi : ainsi, si l'on code 1 le fait d'être
« fumeur », et 0 le fait d'être « non fumeur »,
l'odds-ratio estimé eßi quantifie
le risque supplémentaire de présence de la maladie chez
les fumeurs par rapport aux non-fumeurs, indépendamment des autres
facteurs (par exemple, un odds-ratio égal à 2 signifie
qu'il y a deux fois plus de malades chez les fumeurs que chez les non-fumeurs
si la maladie est rare). À l'opposé, si l'on code 1 le fait
d'être « non fumeur », et 0 le fait d'être «
fumeur », l'odds-ratio représente l'effet protecteur
de l'absence de tabagisme (dans ce cas, un odds-ratio égal
à 0,5 signifie qu'il y a deux fois moins de malades chez les non-fumeurs
que chez les fumeurs).
* Variable Xi qualitative ordinale
à plus de deux classes
Une variable qualitative ordinale Xi est une variable
dont les catégories ont un ordre naturel, par exemple, la variable
« nombre de paquets fumés par jour » dont les catégories
sont : « 0 paquet », « 1 paquet », et « 2 paquets
ou plus ». La codification numérique peut permettre de représenter
les différents niveaux d'exposition. Si les catégories sont
de largeur égale, la variable peut logiquement être codée
en 0, 1, 2. Dans ce cas, le coefficient ßi permet
de calculer l'odds-ratio : eßi pour les
différents couples de valeurs prises par la variable entre deux
catégories successives (« 1 paquet » versus «
0 paquet » ; « 2 paquets ou plus » versus «
1 paquet »). Pour obtenir l'odds-ratio correspondant à
deux catégories non successives, il suffit de multiplier entre
eux les odds-ratio des catégories successives intermédiaires
: par exemple, « 2 paquets ou plus » versus « 0
paquet » se décompose en « 2 paquets ou plus » versus
« 1 paquet » et « 1 paquet versus 0 paquet »
: l'odds-ratio vaut donc eßi x eßi
= e2ßi.
* Variable Xi quantitative
Quand un modèle de régression logistique contient une
variable explicative continue Xi (par exemple, l'âge),
l'interprétation du coefficient ßi dépend
de l'unité de la variable Xi. L'odds-ratio
obtenu par eßi correspond à un accroissement
de 1 unité de cette variable. Par exemple, un odds-ratio
de 1,1 (ßi = 0,095) associé à l'âge
exprimé en années, signifie que, entre 21 et 20 ans (ou
31 et 30 ans), le risque de maladie est multiplié par 1,1, si la
maladie est rare. De la même façon que pour une variable
qualitative ordinale, l'odds-ratio correspondant à un accroissement
de plusieurs unités c de la variable Xi est ecßi.
Ainsi l'odds-ratio entre 30 et 20 ans vaudra e10 x
0,095 = 2,6.
* Variable Xi qualitative nominale
à plus de deux classes
Une variable qualitative nominale Xi est une variable
dont les catégories n'ont plus d'ordre naturel. Par exemple, l'effet
de la consommation de différents types de boisson, catégorisés
en « boisson non alcoolisée », « vin blanc »,
« vin rouge », « vin rosé ». Dans ce cas, on
ne peut plus adopter le codage 0, 1, 2, 3, qui imposerait le même
odds-ratio eßi entre les catégories
successives (« vin blanc » versus « boisson non
alcoolisée ») et les catégories (« vin rouge »
versus « vin blanc ») ou (« vin rosé »
versus « vin rouge »). La bonne méthode consiste
à décomposer la variable nominale à (j) catégories
en (j 1) variables à 2 catégories,
en choisissant une catégorie de référence (ici, « boisson
non alcoolisée »). Le mode de codage est illustré sur
le tableau II.
On constate que trois variables suffisent à décrire les
4 catégories initiales de la variable Xi. Par
exemple, Xi,1 représente la consommation
de vin blanc, Xi,2, celle de vin rouge et
Xi,3, celle de vin rosé. Trois odds-ratio
seront donc estimés.
Dans cette technique de codage, le choix de la catégorie de référence
est primordial. En général, la catégorie de référence
est celle qui peut être considérée comme « contrôle
» et qui correspond au risque de base le plus faible. Il est par
ailleurs important de noter que les variables dichotomiques construites
doivent être sélectionnées ou rejetées en bloc
dans l'analyse. En effet, une erreur à ne pas commettre consiste
à supprimer du modèle multivarié une ou plusieurs
variables dichotomiques (par exemple, Xi,1)
dont l'odds-ratio ne serait pas significatif : une telle démarche
conduirait à une interprétation différente des odds-ratio
pour les variables (Xi,2, Xi,3)
par une modification de la catégorie de référence
(qui deviendrait ici consommation de « boisson non alcoolisée
» ou de « vin blanc »).
Interaction
De même que pour la régression linéaire, un terme
prenant en compte l'interaction entre les variables explicatives peut
être ajouté au modèle si la relation entre une variable
explicative et la variable dépendante Y n'est pas la même
aux différents niveaux des autres variables. Dans le cas d'un modèle
à deux variables explicatives (X1, X2),
l'addition d'un terme d'interaction s'écrit :
logit(p) = ß0 + ß1X1
+ ß2X2 + ß12X1X2
On déduit qu'il y a une interaction entre les variables X1,
X2 si le coefficient ß12 est
non nul. Rappelons que l'existence d'un terme d'interaction significatif
implique que les coefficients ß1, ß2
doivent être estimés et conservés dans le modèle,
même si le test qui leur est associé devient non significatif.
À titre d'illustration, supposons deux variables X1
(absence ou présence de tabagisme, codé 0/1) et X2
(âge inférieur ou supérieur à 40 ans, codé
0/1) associées à Y, la présence d'hypertension (non/oui,
codé 0/1). Un premier modèle sans interaction prédirait
la probabilité p de présence d'hypertension sous
la forme :
logit(p) = ß0 + ß1X1
+ ß2X2
par exemple,
logit(p) = 0,05 + 2X1 + 2X2
Dans ce cas, l'odds-ratio associé à la présence
du tabagisme vaudrait e2 = 7,4, quel que soit l'âge.
Supposons que l'inclusion d'un terme d'interaction modifie le modèle,
qui devient alors
logit(p) = 0,05 + 1,5X1+ 1,2X2
+ 0,7X1X2
L'interprétation littérale est la suivante : l'odds-ratio
associé au tabagisme est de e1,5 = 4,5 chez un
sujet de moins de 40 ans et de e1,5 + 0,7 = 9,0 chez
un sujet de plus de 40 ans.
En résumé, les termes d'interactions permettent de quantifier
des effets différents d'une variable explicative dans des sous-groupes.
Ils doivent être introduits et testés dans le modèle
avec parcimonie, souvent sur la base d'hypothèse a priori
(voir la note sur la régression linéaire pour un algorithme
d'introduction de ces termes dans l'analyse multivariée [2]).
Test dans le modèle logistique
Pour décider si une nouvelle variable explicative Xi
doit être incluse comme facteur de risque, des tests comme le test
de Wald ou le test du rapport des vraisemblances sont effectués
sur les coefficients ßi du modèle de régression
(non détaillés ici, voir [6]).
Résidus et test d'adéquation du modèle
logistique (residuals, goodness of fit)
De même que pour le modèle de régression linéaire,
les résidus qui mesurent les écarts entre les observations
et la probabilité prédite par le modèle doivent vérifier
certains critères et peuvent être étudiés par
des méthodes graphiques ou des tests statistiques [6]. Nous ne
citerons ici que le test de Hosmer et Lemeshow, méthode la plus
fréquemment rencontrée dans les publications pour valider
le bon ajustement du modèle aux observations : un résultat
non significatif de ce test est en faveur d'un bon modèle.
Prévision
L'équation de régression logistique peut être utilisée
à des fins pronostiques, c'est-à-dire pour prédire
la probabilité de survenue de l'événement d'intérêt
quand la valeur des k variables explicatives est connue. Dans ce cas,
la capacité prédictive du modèle doit être
étudiée sur un échantillon différent de celui
utilisé pour la construction de l'équation de régression
et validée à l'aide de tests mesurant l'adéquation,
par exemple, le test de Hosmer et Lemeshow ou la construction d'une courbe
ROC [7].
Modèle logistique conditionnel dans les
enquêtes avec appariement
(conditional logistic model and matched data)
En cas d'appariement, par exemple, dans une enquête appariée
cas-témoins (lorsque, à un cas de sexe masculin âgé
de 50 à 60 ans, on a fait correspondre un témoin du même
sexe et du même âge), les observations ne sont plus indépendantes
: dans ce cas, la méthode adaptée est la régression
logistique conditionnelle [8]. Cette méthode n'est pas détaillée
ici mais les résultats (odds-ratio) et leur interprétation
sont similaires à ceux de la régression logistique non conditionnelle
présentée dans cette note.
Les différentes étapes
de la régression logistique
Le tableau III récapitule
les différentes étapes de la régression logistique.
* Identification et recueil de la variable dépendante (qualitative)
et des variables explicatives (quantitatives, qualitatives, ordinales...).
Codage de certaines variables : les variables quantitatives (comme l'âge)
peuvent être rendues qualitatives par division en classes (plus
de 20 ans, moins de 20 ans) afin de faciliter l'interprétation
des résultats, et les variables nominales à plus de 2 catégories
sont recodées sous forme de plusieurs variables dichotomiques.
* Analyse univariée
Examen des relations entre la variable dépendante et chacune des
variables explicatives : des tests de comparaison de moyennes sont effectués
dans le cas de variables explicatives quantitatives et des tests du chi
carré dans le cas de variables explicatives qualitatives. Dans
le cas de petits échantillons, des tests non paramétriques
de comparaison sont utilisés [9]. La règle qui consiste
à retenir pour l'analyse multivariée les variables explicatives
pour lesquelles le degré de signification p est inférieur
0,05 est dans ce cas trop restrictive : on retient classiquement pour
cette étape l'ensemble des variables explicatives pour lesquelles
le degré de signification p est inférieur à 0,10,
0,15, 0,20 ou 0,25 selon un choix arbitraire.
* Sélection des variables dans le modèle de régression
logistique
Les facteurs d'exposition se séparent en deux groupes. Le premier
groupe est constitué des facteurs de risques connus comme associés
à la maladie et apparaît dans le modèle afin d'éliminer
des biais potentiels. Pour ce groupe de variables (dites variables d'ajustement),
une liaison significative n'est pas forcément obligatoire pour
leur inclusion dans le modèle. Par exemple, l'âge est un
facteur de risque bien connu des maladies cardiovasculaires et devra figurer
en tant que variable d'ajustement dans de nombreux modèles. La
sélection des autres variables s'effectue avec un seuil de signification
usuellement fixé à 5 % et selon une des trois procédures
décrites dans le modèle linéaire [2] : ascendante,
qui inclut successivement les variables dont la liaison à Y est
la plus significative (degré de signification le plus faible) ;
descendante, qui élimine successivement les variables non significativement
liées à Y en partant du modèle contenant toutes les
variables ; et pas à pas, qui améliore la procédure
ascendante en vérifiant qu'aucune variable ne peut être éliminée
avant inclusion d'une nouvelle variable. Les interactions entre les variables
incluses dans le modèle multivarié sont ensuite introduites
et sélectionnées avec un seuil de signification fixé
classiquement à 5 %. Les variables impliquées dans une interaction
significative doivent être maintenues dans le modèle.
* Validation de l'adéquation du modèle final aux observations
(test de Hosmer et Lemeshow)
* Prévision
Lorsque l'objectif du travail est d'utiliser l'équation logistique
dans un but de prédiction, une étape de validation sur un
échantillon différent est nécessaire. Un tel échantillon
est obtenu soit en recueillant de nouvelles observations, soit en scindant
l'échantillon initial en deux sous-ensembles : le modèle
est construit sur un sous-ensemble de l'échantillon initial choisi
au hasard (dit échantillon d'apprentissage, souvent 2/3 des observations)
et validé sur les autres sujets de l'échantillon (dit échantillon
de validation, 1/3 restant).
Exemple d'un article
Cet article [3] a pour but d'étudier les facteurs prédictifs
de résultats de la valvuloplastie mitrale percutanée afin
d'améliorer la sélection des patients candidats pour cette
intervention. Le modèle de prédiction a été
estimé sur un échantillon d'apprentissage de 1 088 patients
puis validé sur un échantillon indépendant de 426
patients.
Étape 1
Le critère principal de jugement mesurait le résultat
immédiat de la valvuloplastie mitrale percutanée : un succès
était défini par une surface mitrale post-opératoire
>= 1,5 cm2 avec un degré de régurgitation
mitrale ¾ 2/4. Quatorze variables explicatives ont été
mesurées sur l'ensemble des sujets, concernant des caractéristiques
de base des patients (âge, sexe...), des variables hémodynamiques
et échocardiographiques (pression pulmonaire moyenne, index cardiaque...).
Deux variables d'ajustement ont été considérées
et concernaient les procédures d'interventions : « type de
ballon utilisé », « aire effective dilatée par
la ballon ».
Étape 2
Les relations entre chaque variable explicative et la fréquence
de succès ont été examinées au cours d'une
analyse univariée préliminaire, soit par des tests t pour
les variables quantitatives (par exemple, l'aire de la valve mitrale était
supérieure en moyenne dans le groupe de patients répondant
à la définition de succès, p < 0,001), soit par
des tests de chi carré pour les variables qualitatives. Douze parmi
les 14 variables explicatives étudiées ont été
retenues au cours de cette étape en fixant le seuil de signification
à 0,25.
Étape 3
En raison du très grand nombre de variables (et donc d'interactions
éventuelles), l'analyse multivariée a été
réalisée en deux phases comme suit. Sur les 12 variables
sélectionnées en analyse univariée, un premier modèle
logistique (incluant les deux variables d'ajustement, avec un seuil de
signification à 0,25 et une procédure de sélection
pas à pas) permettait de retenir 7 variables. Un deuxième
modèle fut ensuite réalisé en introduisant toutes
les interactions entre ces 7 variables et les 2 variables d'ajustement
deux à deux avec un seuil de signification fixé à
0,05 et une procédure de sélection descendante. Le modèle
final ainsi construit comportait 5 variables explicatives, les 2 variables
d'ajustement et deux termes d'interactions.
Étape 4
Le modèle logistique final obtenu a été validé
prospectivement sur l'échantillon indépendant. L'adéquation
du modèle a été testée à l'aide du
test de Hosmer et Lemeshow. Dans la mesure où l'équation
logistique prédit la probabilité de succès immédiat
de la valvuloplastie et où l'on connaît le statut succès
ou échec de chaque patient de l'échantillon de validation,
il est possible d'illustrer la capacité prédictive du modèle
par la construction d'une courbe ROC [7] : il suffit de faire varier le
seuil de décision au-dessus duquel on prédira un succès
et de calculer la sensibilité et la spécificité correspondantes
sur l'échantillon. Par exemple, si la probabilité prédite
de succès pour un patient vaut 0,3 et que le seuil est fixé
à 0,7, cette prédiction sera comptabilisée comme
un « vrai négatif » en cas d'échec de la
procédure chez le patient et comme un « faux négatif
» en cas de succès chez le patient. Il est ensuite possible
de calculer l'aire sous la courbe, pour quantifier la capacité
prédictive du modèle. Dans cette étude, l'aire sous
la courbe ROC valait 0,72 et le modèle obtenu donnait de bons résultats,
notamment en termes de sensibilité.
REFERENCES
1. Kannel WB, Wolf PA. Pulling it all together : changing the
cardiovascular outlook. Am Heart J 1992 ; 123 : 264-7.
2. Deguen S. Méthodes multivariées (1) : la régression
linéaire multiple. Sang Thromb Vaiss 1998 ; 10 : 586-90.
3. Iung B, Cormier B, Ducimetière P, et al. Immediate
results of percutaneous mitral commissurotomie. A predictive model on
a series of 1 514 patients. Circulation 1996 ; 94 : 2124-30.
4. Cox DR. Analyse des données binaires. Paris
: Dunod, 1972.
5. Letrilliard L. Les enquêtes cas-témoins : quand,
comment ? Sang Thromb Vaiss 1998 ; 10 : 116-22.
6. Hosmer DW, Lemeshow S. Applied logistic regression.
New York : Wiley, 1989.
7. Carrat F. Décider entre plusieurs méthodes diagnostiques
: sensibilité, spécificité, valeur prédictive,
rapport de vraisemblance et courbe ROC. Sang Thromb Vaiss 1998
; 10 : 50-5.
8. Bouyer J, Hémon D, Cordier S, et al. Épidémiologie.
Principes et méthodes quantitatives. Paris : Édition
INSERM, 1993.
9. Cohen C. Comparer deux proportions, deux moyennes, apparié
ou non apparié ? Paramétrique ou non paramétrique
? Sang Thromb Vaiss 1998 ; 10 : 377-83.
|