Home > Journals > Medicine > Sang Thrombose Vaisseaux > Full text
 
      Advanced search    Shopping cart    French version 
 
Latest books
Catalogue/Search
Collections
All journals
Medicine
Sang Thrombose Vaisseaux
- Current issue
- Archives
- Subscribe
- Order an issue
- More information
Biology and research
Public health
Agronomy and biotech.
My account
Forgotten password?
Online account   activation
Subscribe
Licences IP
- Instructions for use
- Estimate request form
- Licence agreement
Order an issue
Pay-per-view articles
Newsletters
How can I publish?
Journals
Books
Help for advertisers
Foreign rights
Book sales agents



 

Texte intégral de l'article
 
  Printable version

Multivariate methods (2) : logistic regression


Sang Thrombose Vaisseaux. Volume 10, Number 10, 660-6, Décembre 1998, Note méthodologie



Author(s) : Anne-Claude Camproux.

Pictures

ARTICLE

De nombreux travaux d'épidémiologie clinique étudient les facteurs associés à la présence d'une maladie. Particulièrement dans le domaine des maladies cardiovasculaires, fréquemment d'origine multifactorielle [1], il est habituel d'étudier simultanément l'association entre différents facteurs d'exposition (par exemple, l'âge, le tabagisme) et la survenue d'un événement d'intérêt (une maladie, une complication). La note précédente [2] introduisait la notion de variable dépendante pour désigner l'événement d'intérêt et de variables explicatives pour désigner les facteurs d'exposition étudiés. Cette note introduisait également les méthodes multivariées en présentant le modèle de régression linéaire multiple qui s'utilise lorsque la variable dépendante est continue. Nous présentons ici le modèle de régression logistique, méthode multivariée de référence dans le cas où la variable dépendante est qualitative, de type présence/absence, succès/échec. Dans la mesure où il est plus facile, en pratique clinique, de raisonner et de prendre des décisions sur un critère qualitatif (par exemple, présence ou absence d'hypertension) que sur un critère quantitatif (valeur de la pression artérielle), on déduit que cette technique d'analyse multivariée est de très loin la plus utilisée dans la littérature scientifique biomédicale. La régression logistique présente en outre un intérêt particulier pour le clinicien puisqu'elle permet ­ et ceci sera repris par la suite ­ l'estimation des odds-ratio (rapport des cotes) dont l'interprétation clinique est plus intuitive que celle d'un coefficient de régression.
Un résumé de la méthode et les différentes étapes de construction du modèle de régression logistique sont présentés dans cette note. La démarche est illustrée à partir d'une étude sur les facteurs pronostiques de succès de la dilatation mitrale par voie percutanée [3].

Glossaire

Le tableau I résume les différentes définitions et notations utilisées dans cette note.

Équation de régression

La variable qualitative Y désigne la maladie et peut prendre deux valeurs : malade (Y = 1) ou non-malade (Y = 0). Le modèle logistique, proposé initialement par Cox en 1972 [4], prédit la probabilité p de survenue de la maladie ­ i.e. la probabilité qu'un individu soit malade, P(Y = 1) ­ connaissant les valeurs prises par les k variables explicatives (X1, X2,..., Xk) (littéralement, sachant que l'individu est un homme, fumeur, de 30 ans, etc.).
En reprenant le modèle de régression linéaire multiple décrit dans la note précédente, on pourrait être tenté d'exprimer la probabilité p de survenue de la maladie sous la forme d'une combinaison linéaire des k variables explicatives : ß0 + ß1X1 + ß2X2 +... + ßkXk et de tester les coefficients de régression (ß1, ß2,..., ßk). Néanmoins une telle équation ne garantit pas que la valeur prédite de p soit comprise entre 0 et 1 pour toutes les combinaisons de valeurs prises par les variables explicatives (par exemple, la probabilité prédite de maladie chez une fillette de 5 ans, non fumeuse, etc., pourrait être calculée négative). Pour s'affranchir de ce problème, une opération mathématique est appliquée à la probabilité p, la transformant en une variable continue sur ]­ (infinity), + (infinity)[ : c'est la transformation logit (prononcée log-it) dont la méthode tire son nom. L'équation logistique s'écrit :

logit(p) = logarithme (p /1-p) = ß0 + ß1X1 + ß2X2 + ... + ßkXk

L'interprétation des résultats d'une régression logistique, comme sa formulation, est donc très proche de l'interprétation des résultats d'une régression linéaire. Ainsi, quand on désire tester l'association entre la variable dépendante Y et une variable X1 (quantitative ou qualitative), avec ajustement sur les autres variables (X2,..., Xk), c'est sur le coefficient ß1 du modèle que va porter le test. Une absence de liaison se traduisant par un coefficient ß1 non différent de zéro. L'intercept ß0 correspond au logit du risque de la maladie lorsque ß1X1 + ß2X2 +... + ßkXk vaut zéro, notamment en l'absence d'exposition aux k facteurs (X1 = X2 =... = Xk = 0). On retiendra que, dans le cas d'une enquête longitudinale (cohorte), ß0 permet l'estimation de la fréquence de base de la maladie en l'absence d'exposition aux facteurs étudiés ; dans le cas d'une enquête cas-témoins, ß0 n'a pas de signification et dépend simplement du nombre de témoins sélectionnés par cas.

Odds-ratio ajusté (adjusted odds ratio)

Par sa formulation, le modèle logistique établit une correspondance directe entre un coefficient de régression ßi et l'odds-ratio associé à une variable explicative Xi : eßi est l'odds-ratio ajusté sur les autres variables explicatives présentes dans le modèle. Rappelons que l'odds-ratio a une signification clinique intuitive lorsque la fréquence de l'événement étudié est rare (p petit dans la population) : il est approximativement égal au risque relatif [5]. Son interprétation littérale est décrite ci-dessous en fonction du type de variables explicatives.

* Variable Xi qualitative à deux classes

Il s'agit du cas le plus fréquemment rencontré : la variable explicative Xi a deux modalités (par exemple, être « fumeur » ou « non fumeur »). L'interprétation des résultats doit être effectuée très attentivement en fonction du codage choisi : ainsi, si l'on code 1 le fait d'être « fumeur », et 0 le fait d'être « non fumeur », l'odds-ratio estimé eßi quantifie le risque supplémentaire de présence de la maladie chez les fumeurs par rapport aux non-fumeurs, indépendamment des autres facteurs (par exemple, un odds-ratio égal à 2 signifie qu'il y a deux fois plus de malades chez les fumeurs que chez les non-fumeurs si la maladie est rare). À l'opposé, si l'on code 1 le fait d'être « non fumeur », et 0 le fait d'être « fumeur », l'odds-ratio représente l'effet protecteur de l'absence de tabagisme (dans ce cas, un odds-ratio égal à 0,5 signifie qu'il y a deux fois moins de malades chez les non-fumeurs que chez les fumeurs).

* Variable Xi qualitative ordinale à plus de deux classes

Une variable qualitative ordinale Xi est une variable dont les catégories ont un ordre naturel, par exemple, la variable « nombre de paquets fumés par jour » dont les catégories sont : « 0 paquet », « 1 paquet », et « 2 paquets ou plus ». La codification numérique peut permettre de représenter les différents niveaux d'exposition. Si les catégories sont de largeur égale, la variable peut logiquement être codée en 0, 1, 2. Dans ce cas, le coefficient ßi permet de calculer l'odds-ratio : eßi pour les différents couples de valeurs prises par la variable entre deux catégories successives (« 1 paquet » versus « 0 paquet » ; « 2 paquets ou plus » versus « 1 paquet »). Pour obtenir l'odds-ratio correspondant à deux catégories non successives, il suffit de multiplier entre eux les odds-ratio des catégories successives intermédiaires : par exemple, « 2 paquets ou plus » versus « 0 paquet » se décompose en « 2 paquets ou plus » versus « 1 paquet » et « 1 paquet versus 0 paquet » : l'odds-ratio vaut donc eßi x eßi = e2ßi.

* Variable Xi quantitative

Quand un modèle de régression logistique contient une variable explicative continue Xi (par exemple, l'âge), l'interprétation du coefficient ßi dépend de l'unité de la variable Xi. L'odds-ratio obtenu par eßi correspond à un accroissement de 1 unité de cette variable. Par exemple, un odds-ratio de 1,1 (ßi = 0,095) associé à l'âge exprimé en années, signifie que, entre 21 et 20 ans (ou 31 et 30 ans), le risque de maladie est multiplié par 1,1, si la maladie est rare. De la même façon que pour une variable qualitative ordinale, l'odds-ratio correspondant à un accroissement de plusieurs unités c de la variable Xi est ecßi. Ainsi l'odds-ratio entre 30 et 20 ans vaudra e10 x 0,095 = 2,6.

* Variable Xi qualitative nominale à plus de deux classes

Une variable qualitative nominale Xi est une variable dont les catégories n'ont plus d'ordre naturel. Par exemple, l'effet de la consommation de différents types de boisson, catégorisés en « boisson non alcoolisée », « vin blanc », « vin rouge », « vin rosé ». Dans ce cas, on ne peut plus adopter le codage 0, 1, 2, 3, qui imposerait le même odds-ratio eßi entre les catégories successives (« vin blanc » versus « boisson non alcoolisée ») et les catégories (« vin rouge » versus « vin blanc ») ou (« vin rosé » versus « vin rouge »). La bonne méthode consiste à décomposer la variable nominale à (j) catégories en (j ­ 1) variables à 2 catégories, en choisissant une catégorie de référence (ici, « boisson non alcoolisée »). Le mode de codage est illustré sur le tableau II.
On constate que trois variables suffisent à décrire les 4 catégories initiales de la variable Xi. Par exemple, Xi,1 représente la consommation de vin blanc, Xi,2, celle de vin rouge et Xi,3, celle de vin rosé. Trois odds-ratio seront donc estimés.
Dans cette technique de codage, le choix de la catégorie de référence est primordial. En général, la catégorie de référence est celle qui peut être considérée comme « contrôle » et qui correspond au risque de base le plus faible. Il est par ailleurs important de noter que les variables dichotomiques construites doivent être sélectionnées ou rejetées en bloc dans l'analyse. En effet, une erreur à ne pas commettre consiste à supprimer du modèle multivarié une ou plusieurs variables dichotomiques (par exemple, Xi,1) dont l'odds-ratio ne serait pas significatif : une telle démarche conduirait à une interprétation différente des odds-ratio pour les variables (Xi,2, Xi,3) par une modification de la catégorie de référence (qui deviendrait ici consommation de « boisson non alcoolisée » ou de « vin blanc »).

Interaction

De même que pour la régression linéaire, un terme prenant en compte l'interaction entre les variables explicatives peut être ajouté au modèle si la relation entre une variable explicative et la variable dépendante Y n'est pas la même aux différents niveaux des autres variables. Dans le cas d'un modèle à deux variables explicatives (X1, X2), l'addition d'un terme d'interaction s'écrit :

logit(p) = ß0 + ß1X1 + ß2X2 + ß12X1X2

On déduit qu'il y a une interaction entre les variables X1, X2 si le coefficient ß12 est non nul. Rappelons que l'existence d'un terme d'interaction significatif implique que les coefficients ß1, ß2 doivent être estimés et conservés dans le modèle, même si le test qui leur est associé devient non significatif.
À titre d'illustration, supposons deux variables X1 (absence ou présence de tabagisme, codé 0/1) et X2 (âge inférieur ou supérieur à 40 ans, codé 0/1) associées à Y, la présence d'hypertension (non/oui, codé 0/1). Un premier modèle sans interaction prédirait la probabilité p de présence d'hypertension sous la forme :

logit(p) = ß0 + ß1X1 + ß2X2

par exemple,

logit(p) = 0,05 + 2X1 + 2X2

Dans ce cas, l'odds-ratio associé à la présence du tabagisme vaudrait e2 = 7,4, quel que soit l'âge. Supposons que l'inclusion d'un terme d'interaction modifie le modèle, qui devient alors

logit(p) = 0,05 + 1,5X1+ 1,2X2 + 0,7X1X2

L'interprétation littérale est la suivante : l'odds-ratio associé au tabagisme est de e1,5 = 4,5 chez un sujet de moins de 40 ans et de e1,5 + 0,7 = 9,0 chez un sujet de plus de 40 ans.
En résumé, les termes d'interactions permettent de quantifier des effets différents d'une variable explicative dans des sous-groupes. Ils doivent être introduits et testés dans le modèle avec parcimonie, souvent sur la base d'hypothèse a priori (voir la note sur la régression linéaire pour un algorithme d'introduction de ces termes dans l'analyse multivariée [2]).

Test dans le modèle logistique

Pour décider si une nouvelle variable explicative Xi doit être incluse comme facteur de risque, des tests comme le test de Wald ou le test du rapport des vraisemblances sont effectués sur les coefficients ßi du modèle de régression (non détaillés ici, voir [6]).

Résidus et test d'adéquation du modèle logistique (residuals, goodness of fit)

De même que pour le modèle de régression linéaire, les résidus qui mesurent les écarts entre les observations et la probabilité prédite par le modèle doivent vérifier certains critères et peuvent être étudiés par des méthodes graphiques ou des tests statistiques [6]. Nous ne citerons ici que le test de Hosmer et Lemeshow, méthode la plus fréquemment rencontrée dans les publications pour valider le bon ajustement du modèle aux observations : un résultat non significatif de ce test est en faveur d'un bon modèle.

Prévision

L'équation de régression logistique peut être utilisée à des fins pronostiques, c'est-à-dire pour prédire la probabilité de survenue de l'événement d'intérêt quand la valeur des k variables explicatives est connue. Dans ce cas, la capacité prédictive du modèle doit être étudiée sur un échantillon différent de celui utilisé pour la construction de l'équation de régression et validée à l'aide de tests mesurant l'adéquation, par exemple, le test de Hosmer et Lemeshow ou la construction d'une courbe ROC [7].

Modèle logistique conditionnel dans les enquêtes avec appariement
(conditional logistic model and matched data)

En cas d'appariement, par exemple, dans une enquête appariée cas-témoins (lorsque, à un cas de sexe masculin âgé de 50 à 60 ans, on a fait correspondre un témoin du même sexe et du même âge), les observations ne sont plus indépendantes : dans ce cas, la méthode adaptée est la régression logistique conditionnelle [8]. Cette méthode n'est pas détaillée ici mais les résultats (odds-ratio) et leur interprétation sont similaires à ceux de la régression logistique non conditionnelle présentée dans cette note.

Les différentes étapes de la régression logistique

Le tableau III récapitule les différentes étapes de la régression logistique.

* Identification et recueil de la variable dépendante (qualitative) et des variables explicatives (quantitatives, qualitatives, ordinales...). Codage de certaines variables : les variables quantitatives (comme l'âge) peuvent être rendues qualitatives par division en classes (plus de 20 ans, moins de 20 ans) afin de faciliter l'interprétation des résultats, et les variables nominales à plus de 2 catégories sont recodées sous forme de plusieurs variables dichotomiques.

* Analyse univariée
Examen des relations entre la variable dépendante et chacune des variables explicatives : des tests de comparaison de moyennes sont effectués dans le cas de variables explicatives quantitatives et des tests du chi carré dans le cas de variables explicatives qualitatives. Dans le cas de petits échantillons, des tests non paramétriques de comparaison sont utilisés [9]. La règle qui consiste à retenir pour l'analyse multivariée les variables explicatives pour lesquelles le degré de signification p est inférieur 0,05 est dans ce cas trop restrictive : on retient classiquement pour cette étape l'ensemble des variables explicatives pour lesquelles le degré de signification p est inférieur à 0,10, 0,15, 0,20 ou 0,25 selon un choix arbitraire.

* Sélection des variables dans le modèle de régression logistique
Les facteurs d'exposition se séparent en deux groupes. Le premier groupe est constitué des facteurs de risques connus comme associés à la maladie et apparaît dans le modèle afin d'éliminer des biais potentiels. Pour ce groupe de variables (dites variables d'ajustement), une liaison significative n'est pas forcément obligatoire pour leur inclusion dans le modèle. Par exemple, l'âge est un facteur de risque bien connu des maladies cardiovasculaires et devra figurer en tant que variable d'ajustement dans de nombreux modèles. La sélection des autres variables s'effectue avec un seuil de signification usuellement fixé à 5 % et selon une des trois procédures décrites dans le modèle linéaire [2] : ascendante, qui inclut successivement les variables dont la liaison à Y est la plus significative (degré de signification le plus faible) ; descendante, qui élimine successivement les variables non significativement liées à Y en partant du modèle contenant toutes les variables ; et pas à pas, qui améliore la procédure ascendante en vérifiant qu'aucune variable ne peut être éliminée avant inclusion d'une nouvelle variable. Les interactions entre les variables incluses dans le modèle multivarié sont ensuite introduites et sélectionnées avec un seuil de signification fixé classiquement à 5 %. Les variables impliquées dans une interaction significative doivent être maintenues dans le modèle.

* Validation de l'adéquation du modèle final aux observations (test de Hosmer et Lemeshow)

* Prévision
Lorsque l'objectif du travail est d'utiliser l'équation logistique dans un but de prédiction, une étape de validation sur un échantillon différent est nécessaire. Un tel échantillon est obtenu soit en recueillant de nouvelles observations, soit en scindant l'échantillon initial en deux sous-ensembles : le modèle est construit sur un sous-ensemble de l'échantillon initial choisi au hasard (dit échantillon d'apprentissage, souvent 2/3 des observations) et validé sur les autres sujets de l'échantillon (dit échantillon de validation, 1/3 restant).

Exemple d'un article

Cet article [3] a pour but d'étudier les facteurs prédictifs de résultats de la valvuloplastie mitrale percutanée afin d'améliorer la sélection des patients candidats pour cette intervention. Le modèle de prédiction a été estimé sur un échantillon d'apprentissage de 1 088 patients puis validé sur un échantillon indépendant de 426 patients.

Étape 1

Le critère principal de jugement mesurait le résultat immédiat de la valvuloplastie mitrale percutanée : un succès était défini par une surface mitrale post-opératoire >= 1,5 cm2 avec un degré de régurgitation mitrale ¾ 2/4. Quatorze variables explicatives ont été mesurées sur l'ensemble des sujets, concernant des caractéristiques de base des patients (âge, sexe...), des variables hémodynamiques et échocardiographiques (pression pulmonaire moyenne, index cardiaque...). Deux variables d'ajustement ont été considérées et concernaient les procédures d'interventions : « type de ballon utilisé », « aire effective dilatée par la ballon ».

Étape 2

Les relations entre chaque variable explicative et la fréquence de succès ont été examinées au cours d'une analyse univariée préliminaire, soit par des tests t pour les variables quantitatives (par exemple, l'aire de la valve mitrale était supérieure en moyenne dans le groupe de patients répondant à la définition de succès, p < 0,001), soit par des tests de chi carré pour les variables qualitatives. Douze parmi les 14 variables explicatives étudiées ont été retenues au cours de cette étape en fixant le seuil de signification à 0,25.

Étape 3

En raison du très grand nombre de variables (et donc d'interactions éventuelles), l'analyse multivariée a été réalisée en deux phases comme suit. Sur les 12 variables sélectionnées en analyse univariée, un premier modèle logistique (incluant les deux variables d'ajustement, avec un seuil de signification à 0,25 et une procédure de sélection pas à pas) permettait de retenir 7 variables. Un deuxième modèle fut ensuite réalisé en introduisant toutes les interactions entre ces 7 variables et les 2 variables d'ajustement deux à deux avec un seuil de signification fixé à 0,05 et une procédure de sélection descendante. Le modèle final ainsi construit comportait 5 variables explicatives, les 2 variables d'ajustement et deux termes d'interactions.

Étape 4

Le modèle logistique final obtenu a été validé prospectivement sur l'échantillon indépendant. L'adéquation du modèle a été testée à l'aide du test de Hosmer et Lemeshow. Dans la mesure où l'équation logistique prédit la probabilité de succès immédiat de la valvuloplastie et où l'on connaît le statut succès ou échec de chaque patient de l'échantillon de validation, il est possible d'illustrer la capacité prédictive du modèle par la construction d'une courbe ROC [7] : il suffit de faire varier le seuil de décision au-dessus duquel on prédira un succès et de calculer la sensibilité et la spécificité correspondantes sur l'échantillon. Par exemple, si la probabilité prédite de succès pour un patient vaut 0,3 et que le seuil est fixé à 0,7, cette prédiction sera comptabilisée comme un « vrai négatif » en cas d'échec de la procédure chez le patient et comme un « faux négatif » en cas de succès chez le patient. Il est ensuite possible de calculer l'aire sous la courbe, pour quantifier la capacité prédictive du modèle. Dans cette étude, l'aire sous la courbe ROC valait 0,72 et le modèle obtenu donnait de bons résultats, notamment en termes de sensibilité.

REFERENCES

1. Kannel WB, Wolf PA. Pulling it all together : changing the cardiovascular outlook. Am Heart J 1992 ; 123 : 264-7.

2. Deguen S. Méthodes multivariées (1) : la régression linéaire multiple. Sang Thromb Vaiss 1998 ; 10 : 586-90.

3. Iung B, Cormier B, Ducimetière P, et al. Immediate results of percutaneous mitral commissurotomie. A predictive model on a series of 1 514 patients. Circulation 1996 ; 94 : 2124-30.

4. Cox DR. Analyse des données binaires. Paris : Dunod, 1972.

5. Letrilliard L. Les enquêtes cas-témoins : quand, comment ? Sang Thromb Vaiss 1998 ; 10 : 116-22.

6. Hosmer DW, Lemeshow S. Applied logistic regression. New York : Wiley, 1989.

7. Carrat F. Décider entre plusieurs méthodes diagnostiques : sensibilité, spécificité, valeur prédictive, rapport de vraisemblance et courbe ROC. Sang Thromb Vaiss 1998 ; 10 : 50-5.

8. Bouyer J, Hémon D, Cordier S, et al. Épidémiologie. Principes et méthodes quantitatives. Paris : Édition INSERM, 1993.

9. Cohen C. Comparer deux proportions, deux moyennes, apparié ou non apparié ? Paramétrique ou non paramétrique ? Sang Thromb Vaiss 1998 ; 10 : 377-83.


 

About us - Contact us - Conditions of use - Secure payment
Latest news - Conferences
Copyright © 2007 John Libbey Eurotext - All rights reserved
[ Legal information - Powered by Dolomède ]