Texte intégral de l'article
 
   

Multivariate methods (3) : Cox’s regression


Sang Thrombose Vaisseaux. Volume 11, Number 1, 45-50, Janvier 1999, Note méthodologie



Author(s) : Pierre-Yves Boëlle.

Pictures

ARTICLE

L'analyse multivariée permet d'utiliser simultanément toutes les informations disponibles sur les patients à l'issue d'une étude. Dans deux notes précédentes, les méthodes d'analyse multivariée utilisées lorsque la variable d'intérêt (la mesure principale de l'étude) est continue [1] ou discrète [2] ont été décrites. Dans l'analyse des données « de survie », le modèle de régression de Cox, dit aussi modèle de Cox ou modèle des risques proportionnels (proportional hazard model), est le standard de l'analyse multivariée.
Bien qu'appartenant aux méthodes dites « de survie », il est utile de rappeler que l'emploi de la régression de Cox n'est pas limité aux études où la variable d'intérêt est la date de décès. Ces méthodes sont en effet applicables lorsque la mesure principale est une durée jusqu'à la première occurrence d'un événement d'intérêt particulier (le décès, la survenue d'une maladie ou d'une rechute, l'aggravation d'une maladie...). La régression de Cox est donc la méthode de référence pour l'analyse des données longitudinales issues d'enquêtes de cohortes ou d'essais cliniques.
Un vocabulaire spécifique entoure les méthodes de survie. Le lecteur est invité à se reporter à une note précédente [3] pour une définition complète de celui-ci. On rappelle que la censure est le fait de ne pas connaître la date de survenue de l'événement d'intérêt surveillé. Celle-ci se manifeste notamment lorsque les patients cessent de participer à l'étude (ils sont alors perdus de vue) ou lorsque la date de point de l'étude, c'est-à-dire la date à laquelle le recueil des données est interrompu, survient avant la survenue de l'événement d'intérêt.
Trois types d'objectifs peuvent être poursuivis par la régression de Cox.

La recherche étiologique de facteurs indépendants liés à la survie des patients

Dans une étude de survie portant sur les accidents vasculaires cérébraux chez des sujets hypertendus, on pourrait souhaiter déterminer l'importance relative de facteurs de risque (aussi covariables ou variables explicatives) tels que l'âge, le tabagisme, le niveau d'hypertension... dans la survenue de l'événement. La régression de Cox permet d'exprimer les résultats sous forme de risques relatifs aisément interprétables par le clinicien.

L'ajustement de la comparaison entre groupes de patients dans les enquêtes non randomisées (dites aussi enquêtes non contrôlées)

Si l'objectif d'une étude est la comparaison de la survie entre patients victimes d'un infarctus du myocarde selon l'administration de bêtabloquants, il est probable que certaines caractéristiques du patient auront une valeur pronostique : l'âge, la nature de l'infarctus du myocarde, un dysfonctionnement ventriculaire gauche, un diabète. Dans le cas d'une intervention contrôlée, il serait légitime de penser que ces facteurs pronostiques sont distribués au hasard parmi les patients des groupes traité et non traité. Cependant, si les données sont issues d'une revue des dossiers médicaux, cette hypothèse n'est plus valable : il est certain que les praticiens auront été réticents à administrer des bêtabloquants aux patients présentant des contre-indications relatives à cette prescription, et on aura donc un « biais de prescription ». Il est par ailleurs probable que les patients diabétiques auront une survie plus courte que les autres. L'ajustement des résultats de l'analyse permettra alors de répondre à la question : « les bêtabloquants doivent-ils être prescrits à l'ensemble des patients victimes d'un infarctus du myocarde ? » en s'affranchissant au mieux de l'effet des biais.

La détermination de scores pronostiques de la survie d'un patient

Lorsque des covariables ont été sélectionnées comme influentes pour la durée de survie, un score pronostique peut être défini, et ainsi permettre la prévision a priori de la survie d'un patient.
Dans la suite de cette note, nous décrivons les différentes étapes de la réalisation et de la validation de la régression de Cox. Ces étapes seront illustrées par un article portant sur l'effet de la prescription à long terme de bêtabloquants après infarctus du myocarde [4].

Définitions et prérequis

Bien que les méthodes multivariées employées en analyse de survie soient très comparables, dans leur formulation mathématique, aux autres méthodes multivariées, une différence fondamentale doit être notée. Dans la régression linéaire ou logistique, c'est la valeur de la mesure principale qui est modélisée en fonction des covariables : par exemple, le degré d'athérosclérose en fonction de l'âge, du sexe, d'une hypercholestérolémie [1] ou le résultat d'une valvuloplastie mitrale percutanée en fonction de l'âge, du sexe, du type de ballon [2].
Dans la régression de Cox, la démarche n'est pas aussi directe. En effet, ce qui est comparé entre les patients d'une étude de survie, ce n'est pas la fonction de survie à une date donnée, mais le « risque instantané » d'occurrence de l'événement au cours de la durée de suivi.

Le risque instantané (force de mortalité, fonction de risque, hasard)

Avouons-le, le risque instantané est avant tout une construction mathématique qui simplifie l'étude théorique des modèles de survie. Cependant, son interprétation est assez intuitive : le risque instantané est la probabilité (par unité de temps), pour une personne vivante à une date donnée, de décéder dans l'instant qui suit. On le notera dans la suite h(t).
La proposition « vivante à une date donnée » de la phrase précédente a une importance capitale. Nous l'illustrons par l'exemple suivant : la probabilité qu'un individu décède dans les 2 ans suivant un infarctus du myocarde est différente suivant qu'on la calcule au moment de l'infarctus (c'est alors la probabilité de décès à 2 ans) ou 18 mois après celui-ci (c'est alors la probabilité de décès à 2 ans, sachant qu'il était vivant 18 mois après l'infarctus du myocarde). Dans le premier cas, il faut prendre en compte toutes les possibilités de décès dans les 2 ans qui suivent l'infarctus du myocarde alors que, dans le second, seules les possibilités de décès au cours du quatrième semestre sont en jeu. Le risque instantané correspond à ce second calcul que l'on aurait poussé à l'extrême : c'est la probabilité de décéder dans la fraction de seconde suivant le second anniversaire de l'infarctus du myocarde. Ce risque n'est donc pas mesurable expérimentalement. La théorie mathématique permet toutefois de relier la fonction de survie au risque instantané. Le risque instantané peut varier au cours du temps : calculé 6 mois après un infarctus du myocarde, il est sans doute différent de celui calculé à 2 ans (mais pas obligatoirement plus élevé). Dans certaines situations, le risque instantané pourra être constant dans le temps (modèles dits « sans mémoire »), augmenter avec le temps (modèle avec vieillissement) ou au contraire diminuer avec le temps.

La régression de Cox

Équation de régression

Le modèle de régression de Cox relie k variables explicatives (X1,..., Xk) à la fonction de risque instantané par la formule suivante :

h(t) = h0(t)eß1X1 +... + ßkXk

où les ßi sont les coefficients de la régression de Cox. Comme dans les autres méthodes multivariées, tester l'association entre Xi et la survie revient à comparer la valeur du coefficient ßi à 0. Le terme h0(t), analogue au terme d'intercept dans un modèle logistique ou linéaire, est appelé risque instantané de base (base hazard). L'écriture du risque instantané sous cette forme amène donc à choisir arbitrairement un groupe témoin, auquel tous les autres seront comparés.

Risque relatif (rapport des risques instantanés, hazard ratio)

D'après l'équation précédente, on constate qu'entre deux groupes de patients, définis par exemple par X1 = 1 pour la présence d'un diabète et X1 = 0 son absence, le rapport des risques instantanés subits est simplement eß1. En effet le rapport des risques (noté * dans la suite) satisfait :


Cette manipulation mathématique montre également que, dans ce modèle, le risque de base h0(t) n'est pas lié à la valeur des paramètres ßi. Lorsque l'on s'intéresse avant tout à la valeur des risques relatifs, la détermination de la fonction h0(t) sera donc inutile. Dans un cadre plus général, le risque relatif * prendra des valeurs entre 0 et 1 pour indiquer une protection par rapport au groupe témoin, et supérieures à 1 pour une aggravation.

L'hypothèse des risques proportionnels : le risque relatif est constant dans le temps

Le modèle de Cox repose sur l'hypothèse des risques proportionnels : le ratio * des risques instantanés entre patients de deux groupes différents doit être constant au cours du temps. En reprenant l'exemple précédent, cela revient à dire que, à chaque instant, le patient du groupe diabète a * = eß1 fois plus de chances de décéder que le patient du groupe non diabète, et ceci que l'on soit au début, au milieu ou à la fin de la période de suivi.

La régression de Cox en pratique

Les logiciels statistiques commerciaux permettent d'obtenir les estimations des risques relatifs eßi ainsi que de la fonction de survie. Les étapes nécessaires à la construction du modèle sont le codage des covariables, l'ajustement et la vérification de la validité du modèle. Plusieurs ouvrages décrivent en détails ces étapes, on citera notamment celui de Collett [5].

Codage des covariables

La spécification du modèle est en tout point comparable à celle des autres modèles multivariés. On pourra se référer à la note sur les modèles logistiques [2] pour une discussion plus approfondie sur le principe du codage en fonction de la nature des covariables.
En résumé, le modèle de régression de Cox peut intégrer des covariables quantitatives et/ou des covariables qualitatives, ainsi que des termes d'interactions. Lorsque la présence du risque est définie par une variable qualitative Xi, par exemple avoir reçu un traitement (Xi = 1) ou non (Xi = 0), eßi s'interprète comme le risque relatif lié à la présence de la caractéristique : les patients traités ont eßi fois plus de risque de décéder. Si le risque est lié à la valeur d'une variable quantitative (par exemple l'âge exprimé en année) l'interprétation de eßi est le risque associé à l'augmentation d'une unité de la variable (ici avoir un an de plus). Très souvent, l'investigateur préférera transformer les variables quantitatives en variables qualitatives par la définition de classes avant de faire l'analyse. Une classe de référence arbitraire devra être choisie, qui servira de base de comparaison pour les autres. Par exemple, si le risque lié à l'âge doit être déterminé, on pourra faire 3 classes de patients : moins de 50 ans, de 50 à 60, plus de 60 ans, et indiquer que les risques relatifs sont calculés par rapport à la classe d'âge « moins de 50 ans ».

Sélection des covariables

Plusieurs covariables sont généralement disponibles. La sélection permet alors de proposer un modèle final contenant uniquement les covariables les plus pertinentes ­ c'est-à-dire significativement et indépendamment liées à la survie. Trois étapes sont nécessaires.

Première sélection des covariables par une analyse univariée

Les covariables dont le seuil de signification est inférieur à un seuil arbitraire (en général p < 0,2) sont retenues pour la seconde phase. Cette première sélection permet d'éviter l'apparition d'associations dues à la seule méthode de calcul dans l'analyse multivariée. Les résultats de l'analyse univariée doivent être rapportés dans un tableau.

Ajustement d'un modèle multivarié comportant les covariables retenues à la première étape

Le seuil de signification est fixé à 5 % (p < 0,05). Le choix des covariables à inclure peut être fait par une procédure ascendante (forward), descendante (backward) ou pas à pas (stepwise). On recommande en général une sélection descendante. Le modèle final est rapporté dans un second tableau.

Détermination de l'existence d'interactions entre les covariables

Une discussion approfondie de cette phase a été présentée dans la note précédente [2].

Dans tous les cas, les intervalles de confiance à 95 % obtenus pour chaque eßi doivent être indiqués dans les tableaux.

Validation du modèle

Le modèle de Cox repose sur des conditions très fortes. En pratique, il faut impérativement vérifier que l'hypothèse des risques proportionnels est « acceptable ». Facultativement, on pourra examiner l'indépendance du risque relatif vis-à-vis du temps et l'allure des résidus. Ces deux dernières analyses dépassent le cadre de cette note et requièrent l'intervention d'un biostatisticien.

Vérification de l'hypothèse des risques proportionnels

Cette analyse est faite avant d'appliquer le modèle de Cox. Pour chaque covariable la survie S(t) est estimée dans les différents groupes de patients (par exemple diabétiques et non diabétiques) par la méthode de Kaplan Meier [3]. On représente alors log(-log(S(t))) en fonction de log(t) pour les deux groupes : si les risques sont proportionnels, les tracés correspondant aux différents groupes doivent être des droites parallèles. Plus simplement, on considère souvent que, dès que les courbes de survie obtenues dans les différents groupes ne se coupent pas, l'hypothèse des risques proportionnels est acceptable.

Vérification de l'indépendance temporelle du rapport des risques instantanés

Cette analyse, facultative et plus technique, est réalisée après l'analyse multivariée. Des paramètres dépendants du temps sont introduits dans le modèle de Cox : en pratique, on vérifie que le terme d'interaction entre chaque covariable et le temps n'est pas significatif.

Analyse des résidus

Plusieurs types de résidus peuvent être produits, répondant au nom de Cox-Snell, Martingale ou Deviance. Il n'y a pas de règles simples permettant d'indiquer la nature des problèmes lorsque des déviations sont constatées, mais l'ajout ou le retrait d'une covariable, la recherche d'interactions sont généralement indiqués.

Prévision

Au même titre que les autres méthodes de régression, l'expression de la régression de Cox permet de réaliser des prévisions sur la survie d'un patient donné en connaissant ses caractéristiques. On utilisera, d'une part, l'estimation de h0(t) et des paramètres ßi et, d'autre part, la valeur des covariables Xi mesurées ou recueillies chez ce patient. Dans ce cas, il sera important de valider la capacité prédictive du modèle. Celle-ci pourra être testée en répétant l'ajustement sur un sous-ensemble aléatoire des patients, par exemple 75 % de ceux-ci. Les survies prévues par le modèle et observées seront comparées dans un deuxième temps grâce aux survies observées chez le dernier quart des patients, et les écarts constatés permettront de juger la qualité prédictive du modèle.
Le modèle de Cox peut enfin être utilisé pour définir un score pronostique, basé sur la valeur ß1X+... + ßkXk calculée pour un patient : inférieure à 0, elle indique une protection, et supérieure à 0 une aggravation. Pour plus de simplicité, on définit des seuils qui correspondent à une variation de risque par rapport au groupe témoin (par exemple inférieur à ­ 1, entre ­ 1 et 1, supérieur à 1). Le choix de ces seuils, tant en nombre qu'en valeur, est cependant arbitraire et doit être avant tout fondé sur l'utilité clinique.

Covariables dépendantes du temps

Un dernier point doit être abordé pour compléter la présentation de la régression de Cox. La nature temporelle de l'étude de survie amène un problème spécifique à ces études : que faire lorsque la valeur d'une covariable change au cours du temps ? En général, ceci ne pose pas de problème particulier mais, dans des situations particulières, la régression de Cox doit être délaissée au profit de techniques statistiques plus complexes.
La notion de covariables dépendantes du temps n'est cependant pas intuitive. Nous illustrons cette difficulté dans les deux exemples suivants :

* Dans toute étude, la covariable
« âge du patient » change au cours du temps : chez tous les patients, l'âge augmente d'une unité pour chaque année de suivi. Cependant le risque relatif entre patients d'âge différent reste constant au cours du temps.

* Dans une étude sur la survie de patients présentant une cardiomyopathie hypertrophique non obstructive, la covariable « patient transplanté » est modifiée si une transplantation intervient en cours de suivi. Cependant, pour rencontrer ce cas de figure, il aura été avant tout nécessaire que le patient ait survécu suffisamment longtemps pour qu'il puisse bénéficier d'une transplantation. Le risque relatif entre groupes de patients ne peut alors plus être considéré comme constant au cours du temps.

La régression de Cox ne peut s'appliquer que dans le cas des variables semblables à celles décrites dans le premier exemple. La valeur de la covariable en début d'étude sera alors prise comme caractéristique du patient. Dès que la valeur de la survie conditionnera l'évolution de la covariable, cette dernière devra faire l'objet d'un modèle plus complexe.

Nouveaux développements

Contrairement aux modèles linéaires et logistiques, l'emploi des modèles de survie est relativement récent. Dans ce domaine, l'usage a précédé la théorie : ainsi, Kaplan et Meier ou Cox ont proposé leurs modèles dans les années 70 sans que toute la théorie mathématique nécessaire ait été établie. Cette dernière a, depuis, repris l'avantage et permet des extensions qui deviendront plus communes dans le futur. Ces différents modèles : modèle de Cox avec covariables dépendantes du temps (time dependent covariables), modèle de comptage multivarié (multivariate counting processes), modèle de survie accélérée (accelerated failure model), modèle pour événements récurrents (reccurrent events), modèle de fragilité (frailty model) dépassent le cadre de cette note et demandent l'intervention d'un biostatisticien.

Exemple

Le travail pris en exemple porte sur la survie de patients victimes d'un infarctus du myocarde et étudie l'effet de la prise de bêtabloquants à long terme. C'est une étude non contrôlée, de type « cohorte historique ». Les informations sont donc recueillies après survenue de l'infarctus du myocarde, et l'analyse est fondée sur 201 752 dossiers de patients Medicare (Sécurité sociale gratuite pour les personnes âgées aux États-Unis).
Un biais de prescription est attendu, car les médecins évitent de prescrire des bêtabloquants aux patients chez lesquels une contre-indication relative existe. L'analyse préliminaire des données montre la réalité du biais de prescription : les patients ayant une faible fraction d'éjection, une bronchopneumopathie obstructive chronique, une concentration élevée de créatinine ou un diabète de type I reçoivent moins de bêtabloquants que les autres. En conséquence, les patients qui reçoivent des bêtabloquants ont moins de facteurs de risque de décès que les autres. Le modèle de Cox aura donc pour but de permettre la comparaison de la survie entre patients traités et patients non traités, après ajustement sur les caractéristiques correspondant aux contre-indications de la prescription de bêtabloquants.
Les auteurs précisent que l'hypothèse des risques proportionnels a été vérifiée par l'emploi d'un modèle de Kaplan-Meier sur les différentes classes de patients. L'indépendance des coefficients par rapport au temps n'est pas mentionnée.
Étant donné l'effectif des patients inclus dans l'étude, plus de 200 000 patients, il est presque obligatoire que toutes les covariables soient « significativement » corrélées à la survie. Les auteurs précisent donc qu'ils privilégient alors la magnitude de l'effet (c'est-à-dire la valeur du risque relatif) au degré de significativité. En effet, on doute moins de la véracité d'une association lorsque le risque relatif est 2 que lorsque le risque relatif est 1,01, même s'il est très significatif.
Une première table présente les différentes covariables, toutes considérées comme qualitatives, et la seconde indique les risques ajustés, c'est-à-dire corrigés pour les différences démographiques, physiologiques et de pathologies associées entre patients traités et les autres, ainsi que le risque relatif (inférieur à 1 car les patients traités sont protégés) doté de son intervalle de confiance. Plusieurs courbes permettent alors de présenter les fonctions de survie dans différents groupes de patients.
Le résultat principal est que, pour tous les sous-groupes, la prescription à long terme de bêtabloquants diminue le risque de décès (de 40 %) même chez ceux qui présentent des facteurs habituellement considérés comme des contre-indications relatives.

CONCLUSION

Remerciements

L'auteur remercie Fabrice Carrat pour ses patientes relectures.

REFERENCES

1. Deguen S. Méthodes multivariées (1) : la régression linéaire multiple. Sang Thromb Vaiss 1998 ; 10 : 586-90.

2. Camproux AC. Méthodes multivariées (2) : la régression logistique. Sang Thromb Vaiss 1998 ; 10 : 660-6.

3. Deuffic S. Comparer la survie entre deux groupes. Sang Thromb Vaiss 1998 ; 10 : 515-20.

4. Gottlieb SS, McCarter RJ, Vogel RA. Effect of beta-blockade on mortality among high-risk and low-risk patients after myocardial infarction. N Engl J Med 1998 ; 339 : 489-97.

5. Collett D. Modelling survival data in medical research. Londres : Chapman & Hall, 1994.


Copyright © 2007 John Libbey Eurotext - Tous droits réservés