ARTICLE
L'analyse multivariée permet d'utiliser simultanément toutes
les informations disponibles sur les patients à l'issue d'une étude.
Dans deux notes précédentes, les méthodes d'analyse
multivariée utilisées lorsque la variable d'intérêt
(la mesure principale de l'étude) est continue [1] ou discrète
[2] ont été décrites. Dans l'analyse des données
« de survie », le modèle de régression de Cox,
dit aussi modèle de Cox ou modèle des risques proportionnels
(proportional hazard model), est le standard de l'analyse multivariée.
Bien qu'appartenant aux méthodes dites « de survie »,
il est utile de rappeler que l'emploi de la régression de Cox n'est
pas limité aux études où la variable d'intérêt
est la date de décès. Ces méthodes sont en effet
applicables lorsque la mesure principale est une durée jusqu'à
la première occurrence d'un événement d'intérêt
particulier (le décès, la survenue d'une maladie ou d'une
rechute, l'aggravation d'une maladie...). La régression de Cox
est donc la méthode de référence pour l'analyse des
données longitudinales issues d'enquêtes de cohortes ou d'essais
cliniques.
Un vocabulaire spécifique entoure les méthodes de survie.
Le lecteur est invité à se reporter à une note précédente
[3] pour une définition complète de celui-ci. On rappelle
que la censure est le fait de ne pas connaître la date de
survenue de l'événement d'intérêt surveillé.
Celle-ci se manifeste notamment lorsque les patients cessent de participer
à l'étude (ils sont alors perdus de vue) ou lorsque
la date de point de l'étude, c'est-à-dire la date
à laquelle le recueil des données est interrompu, survient
avant la survenue de l'événement d'intérêt.
Trois types d'objectifs peuvent être poursuivis par la régression
de Cox.
La recherche étiologique de facteurs indépendants
liés à la survie des patients
Dans une étude de survie portant sur les accidents vasculaires
cérébraux chez des sujets hypertendus, on pourrait souhaiter
déterminer l'importance relative de facteurs de risque (aussi covariables
ou variables explicatives) tels que l'âge, le tabagisme, le niveau
d'hypertension... dans la survenue de l'événement. La régression
de Cox permet d'exprimer les résultats sous forme de risques relatifs
aisément interprétables par le clinicien.
L'ajustement de la comparaison entre groupes de
patients dans les enquêtes non randomisées (dites aussi enquêtes
non contrôlées)
Si l'objectif d'une étude est la comparaison de la survie entre
patients victimes d'un infarctus du myocarde selon l'administration de
bêtabloquants, il est probable que certaines caractéristiques
du patient auront une valeur pronostique : l'âge, la nature de l'infarctus
du myocarde, un dysfonctionnement ventriculaire gauche, un diabète.
Dans le cas d'une intervention contrôlée, il serait légitime
de penser que ces facteurs pronostiques sont distribués au hasard
parmi les patients des groupes traité et non traité. Cependant,
si les données sont issues d'une revue des dossiers médicaux,
cette hypothèse n'est plus valable : il est certain que les praticiens
auront été réticents à administrer des bêtabloquants
aux patients présentant des contre-indications relatives à
cette prescription, et on aura donc un « biais de prescription ».
Il est par ailleurs probable que les patients diabétiques auront
une survie plus courte que les autres. L'ajustement des résultats
de l'analyse permettra alors de répondre à la question :
« les bêtabloquants doivent-ils être prescrits à
l'ensemble des patients victimes d'un infarctus du myocarde ? » en
s'affranchissant au mieux de l'effet des biais.
La détermination de scores pronostiques de
la survie d'un patient
Lorsque des covariables ont été sélectionnées
comme influentes pour la durée de survie, un score pronostique
peut être défini, et ainsi permettre la prévision
a priori de la survie d'un patient.
Dans la suite de cette note, nous décrivons les différentes
étapes de la réalisation et de la validation de la régression
de Cox. Ces étapes seront illustrées par un article portant
sur l'effet de la prescription à long terme de bêtabloquants
après infarctus du myocarde [4].
Définitions et prérequis
Bien que les méthodes multivariées employées en
analyse de survie soient très comparables, dans leur formulation
mathématique, aux autres méthodes multivariées, une
différence fondamentale doit être notée. Dans la régression
linéaire ou logistique, c'est la valeur de la mesure principale
qui est modélisée en fonction des covariables : par exemple,
le degré d'athérosclérose en fonction de l'âge,
du sexe, d'une hypercholestérolémie [1] ou le résultat
d'une valvuloplastie mitrale percutanée en fonction de l'âge,
du sexe, du type de ballon [2].
Dans la régression de Cox, la démarche n'est pas aussi directe.
En effet, ce qui est comparé entre les patients d'une étude
de survie, ce n'est pas la fonction de survie à une date donnée,
mais le « risque instantané » d'occurrence de l'événement
au cours de la durée de suivi.
Le risque instantané (force de mortalité,
fonction de risque, hasard)
Avouons-le, le risque instantané est avant tout une construction
mathématique qui simplifie l'étude théorique des
modèles de survie. Cependant, son interprétation est assez
intuitive : le risque instantané est la probabilité (par
unité de temps), pour une personne vivante à une date donnée,
de décéder dans l'instant qui suit. On le notera dans la
suite h(t).
La proposition « vivante à une date donnée » de
la phrase précédente a une importance capitale. Nous l'illustrons
par l'exemple suivant : la probabilité qu'un individu décède
dans les 2 ans suivant un infarctus du myocarde est différente
suivant qu'on la calcule au moment de l'infarctus (c'est alors la probabilité
de décès à 2 ans) ou 18 mois après celui-ci
(c'est alors la probabilité de décès à 2 ans,
sachant qu'il était vivant 18 mois après l'infarctus du
myocarde). Dans le premier cas, il faut prendre en compte toutes les possibilités
de décès dans les 2 ans qui suivent l'infarctus du myocarde
alors que, dans le second, seules les possibilités de décès
au cours du quatrième semestre sont en jeu. Le risque instantané
correspond à ce second calcul que l'on aurait poussé à
l'extrême : c'est la probabilité de décéder
dans la fraction de seconde suivant le second anniversaire de l'infarctus
du myocarde. Ce risque n'est donc pas mesurable expérimentalement.
La théorie mathématique permet toutefois de relier la fonction
de survie au risque instantané. Le risque instantané peut
varier au cours du temps : calculé 6 mois après un infarctus
du myocarde, il est sans doute différent de celui calculé
à 2 ans (mais pas obligatoirement plus élevé). Dans
certaines situations, le risque instantané pourra être constant
dans le temps (modèles dits « sans mémoire »),
augmenter avec le temps (modèle avec vieillissement) ou au contraire
diminuer avec le temps.
La régression de
Cox
Équation de régression
Le modèle de régression de Cox relie k variables explicatives
(X1,..., Xk) à la fonction de risque instantané
par la formule suivante :
h(t) = h0(t)eß1X1 +... + ßkXk
où les ßi sont les coefficients de la régression
de Cox. Comme dans les autres méthodes multivariées, tester
l'association entre Xi et la survie revient à comparer
la valeur du coefficient ßi à 0. Le terme h0(t),
analogue au terme d'intercept dans un modèle logistique ou linéaire,
est appelé risque instantané de base (base hazard).
L'écriture du risque instantané sous cette forme amène
donc à choisir arbitrairement un groupe témoin, auquel tous
les autres seront comparés.
Risque relatif (rapport des risques instantanés,
hazard ratio)
D'après l'équation précédente, on constate
qu'entre deux groupes de patients, définis par exemple par X1
= 1 pour la présence d'un diabète et X1 = 0 son
absence, le rapport des risques instantanés subits est simplement
eß1. En effet le rapport des risques (noté * dans
la suite) satisfait :

Cette manipulation mathématique montre également que, dans
ce modèle, le risque de base h0(t) n'est pas lié
à la valeur des paramètres ßi. Lorsque
l'on s'intéresse avant tout à la valeur des risques relatifs,
la détermination de la fonction h0(t) sera donc inutile.
Dans un cadre plus général, le risque relatif * prendra
des valeurs entre 0 et 1 pour indiquer une protection par rapport au groupe
témoin, et supérieures à 1 pour une aggravation.
L'hypothèse des risques proportionnels :
le risque relatif est constant dans le temps
Le modèle de Cox repose sur l'hypothèse des risques proportionnels
: le ratio * des risques instantanés entre patients de deux groupes
différents doit être constant au cours du temps. En reprenant
l'exemple précédent, cela revient à dire que, à
chaque instant, le patient du groupe diabète a * = eß1
fois plus de chances de décéder que le patient du groupe
non diabète, et ceci que l'on soit au début, au milieu ou
à la fin de la période de suivi.
La régression de
Cox en pratique
Les logiciels statistiques commerciaux permettent d'obtenir les estimations
des risques relatifs eßi ainsi que de la fonction de
survie. Les étapes nécessaires à la construction
du modèle sont le codage des covariables, l'ajustement et la vérification
de la validité du modèle. Plusieurs ouvrages décrivent
en détails ces étapes, on citera notamment celui de Collett
[5].
Codage des covariables
La spécification du modèle est en tout point comparable
à celle des autres modèles multivariés. On pourra
se référer à la note sur les modèles logistiques
[2] pour une discussion plus approfondie sur le principe du codage en
fonction de la nature des covariables.
En résumé, le modèle de régression de Cox
peut intégrer des covariables quantitatives et/ou des covariables
qualitatives, ainsi que des termes d'interactions. Lorsque la présence
du risque est définie par une variable qualitative Xi,
par exemple avoir reçu un traitement (Xi = 1) ou non
(Xi = 0), eßi s'interprète comme le
risque relatif lié à la présence de la caractéristique
: les patients traités ont eßi fois plus de risque
de décéder. Si le risque est lié à la valeur
d'une variable quantitative (par exemple l'âge exprimé en
année) l'interprétation de eßi est le risque
associé à l'augmentation d'une unité de la variable
(ici avoir un an de plus). Très souvent, l'investigateur préférera
transformer les variables quantitatives en variables qualitatives par
la définition de classes avant de faire l'analyse. Une classe de
référence arbitraire devra être choisie, qui servira
de base de comparaison pour les autres. Par exemple, si le risque lié
à l'âge doit être déterminé, on pourra
faire 3 classes de patients : moins de 50 ans, de 50 à 60, plus
de 60 ans, et indiquer que les risques relatifs sont calculés par
rapport à la classe d'âge « moins de 50 ans ».
Sélection des covariables
Plusieurs covariables sont généralement disponibles. La
sélection permet alors de proposer un modèle final contenant
uniquement les covariables les plus pertinentes c'est-à-dire
significativement et indépendamment liées à la survie.
Trois étapes sont nécessaires.
Première sélection des covariables
par une analyse univariée
Les covariables dont le seuil de signification est inférieur
à un seuil arbitraire (en général p < 0,2) sont
retenues pour la seconde phase. Cette première sélection
permet d'éviter l'apparition d'associations dues à la seule
méthode de calcul dans l'analyse multivariée. Les résultats
de l'analyse univariée doivent être rapportés dans
un tableau.
Ajustement d'un modèle multivarié
comportant les covariables retenues à la première étape
Le seuil de signification est fixé à 5 % (p < 0,05).
Le choix des covariables à inclure peut être fait par une
procédure ascendante (forward), descendante (backward)
ou pas à pas (stepwise). On recommande en général
une sélection descendante. Le modèle final est rapporté
dans un second tableau.
Détermination de l'existence d'interactions
entre les covariables
Une discussion approfondie de cette phase a été présentée
dans la note précédente [2].
Dans tous les cas, les intervalles de confiance à 95 % obtenus
pour chaque eßi doivent être indiqués dans
les tableaux.
Validation du modèle
Le modèle de Cox repose sur des conditions très fortes.
En pratique, il faut impérativement vérifier que l'hypothèse
des risques proportionnels est « acceptable ». Facultativement,
on pourra examiner l'indépendance du risque relatif vis-à-vis
du temps et l'allure des résidus. Ces deux dernières analyses
dépassent le cadre de cette note et requièrent l'intervention
d'un biostatisticien.
Vérification de l'hypothèse des risques
proportionnels
Cette analyse est faite avant d'appliquer le modèle de Cox. Pour
chaque covariable la survie S(t) est estimée dans les différents
groupes de patients (par exemple diabétiques et non diabétiques)
par la méthode de Kaplan Meier [3]. On représente alors
log(-log(S(t))) en fonction de log(t) pour les deux groupes : si les risques
sont proportionnels, les tracés correspondant aux différents
groupes doivent être des droites parallèles. Plus simplement,
on considère souvent que, dès que les courbes de survie
obtenues dans les différents groupes ne se coupent pas, l'hypothèse
des risques proportionnels est acceptable.
Vérification de l'indépendance temporelle
du rapport des risques instantanés
Cette analyse, facultative et plus technique, est réalisée
après l'analyse multivariée. Des paramètres dépendants
du temps sont introduits dans le modèle de Cox : en pratique, on
vérifie que le terme d'interaction entre chaque covariable et le
temps n'est pas significatif.
Analyse des résidus
Plusieurs types de résidus peuvent être produits, répondant
au nom de Cox-Snell, Martingale ou Deviance. Il n'y a pas de règles
simples permettant d'indiquer la nature des problèmes lorsque des
déviations sont constatées, mais l'ajout ou le retrait d'une
covariable, la recherche d'interactions sont généralement
indiqués.
Prévision
Au même titre que les autres méthodes de régression,
l'expression de la régression de Cox permet de réaliser
des prévisions sur la survie d'un patient donné en connaissant
ses caractéristiques. On utilisera, d'une part, l'estimation de
h0(t) et des paramètres ßi et, d'autre
part, la valeur des covariables Xi mesurées ou recueillies
chez ce patient. Dans ce cas, il sera important de valider la capacité
prédictive du modèle. Celle-ci pourra être testée
en répétant l'ajustement sur un sous-ensemble aléatoire
des patients, par exemple 75 % de ceux-ci. Les survies prévues
par le modèle et observées seront comparées dans
un deuxième temps grâce aux survies observées chez
le dernier quart des patients, et les écarts constatés permettront
de juger la qualité prédictive du modèle.
Le modèle de Cox peut enfin être utilisé pour définir
un score pronostique, basé sur la valeur ß1X1 +...
+ ßkXk calculée pour un patient : inférieure
à 0, elle indique une protection, et supérieure à
0 une aggravation. Pour plus de simplicité, on définit des
seuils qui correspondent à une variation de risque par rapport
au groupe témoin (par exemple inférieur à
1, entre 1 et 1, supérieur à 1). Le choix de ces
seuils, tant en nombre qu'en valeur, est cependant arbitraire et doit
être avant tout fondé sur l'utilité clinique.
Covariables dépendantes du temps
Un dernier point doit être abordé pour compléter
la présentation de la régression de Cox. La nature temporelle
de l'étude de survie amène un problème spécifique
à ces études : que faire lorsque la valeur d'une covariable
change au cours du temps ? En général, ceci ne pose pas
de problème particulier mais, dans des situations particulières,
la régression de Cox doit être délaissée au
profit de techniques statistiques plus complexes.
La notion de covariables dépendantes du temps n'est cependant pas
intuitive. Nous illustrons cette difficulté dans les deux exemples
suivants :
* Dans toute étude, la covariable
« âge du patient » change au cours du temps : chez tous
les patients, l'âge augmente d'une unité pour chaque année
de suivi. Cependant le risque relatif entre patients d'âge différent
reste constant au cours du temps.
* Dans une étude sur la survie de patients présentant
une cardiomyopathie hypertrophique non obstructive, la covariable «
patient transplanté » est modifiée si une transplantation
intervient en cours de suivi. Cependant, pour rencontrer ce cas de figure,
il aura été avant tout nécessaire que le patient
ait survécu suffisamment longtemps pour qu'il puisse bénéficier
d'une transplantation. Le risque relatif entre groupes de patients ne
peut alors plus être considéré comme constant au cours
du temps.
La régression de Cox ne peut s'appliquer que dans le cas des
variables semblables à celles décrites dans le premier exemple.
La valeur de la covariable en début d'étude sera alors prise
comme caractéristique du patient. Dès que la valeur de la
survie conditionnera l'évolution de la covariable, cette dernière
devra faire l'objet d'un modèle plus complexe.
Nouveaux développements
Contrairement aux modèles linéaires et logistiques, l'emploi
des modèles de survie est relativement récent. Dans ce domaine,
l'usage a précédé la théorie : ainsi, Kaplan
et Meier ou Cox ont proposé leurs modèles dans les années
70 sans que toute la théorie mathématique nécessaire
ait été établie. Cette dernière a, depuis,
repris l'avantage et permet des extensions qui deviendront plus communes
dans le futur. Ces différents modèles : modèle de
Cox avec covariables dépendantes du temps (time dependent covariables),
modèle de comptage multivarié (multivariate counting
processes), modèle de survie accélérée
(accelerated failure model), modèle pour événements
récurrents (reccurrent events), modèle de fragilité
(frailty model) dépassent le cadre de cette note et demandent
l'intervention d'un biostatisticien.
Exemple
Le travail pris en exemple porte sur la survie de patients victimes
d'un infarctus du myocarde et étudie l'effet de la prise de bêtabloquants
à long terme. C'est une étude non contrôlée,
de type « cohorte historique ». Les informations sont donc recueillies
après survenue de l'infarctus du myocarde, et l'analyse est fondée
sur 201 752 dossiers de patients Medicare (Sécurité sociale
gratuite pour les personnes âgées aux États-Unis).
Un biais de prescription est attendu, car les médecins évitent
de prescrire des bêtabloquants aux patients chez lesquels une contre-indication
relative existe. L'analyse préliminaire des données montre
la réalité du biais de prescription : les patients ayant
une faible fraction d'éjection, une bronchopneumopathie obstructive
chronique, une concentration élevée de créatinine
ou un diabète de type I reçoivent moins de bêtabloquants
que les autres. En conséquence, les patients qui reçoivent
des bêtabloquants ont moins de facteurs de risque de décès
que les autres. Le modèle de Cox aura donc pour but de permettre
la comparaison de la survie entre patients traités et patients
non traités, après ajustement sur les caractéristiques
correspondant aux contre-indications de la prescription de bêtabloquants.
Les auteurs précisent que l'hypothèse des risques proportionnels
a été vérifiée par l'emploi d'un modèle
de Kaplan-Meier sur les différentes classes de patients. L'indépendance
des coefficients par rapport au temps n'est pas mentionnée.
Étant donné l'effectif des patients inclus dans l'étude,
plus de 200 000 patients, il est presque obligatoire que toutes les covariables
soient « significativement » corrélées à
la survie. Les auteurs précisent donc qu'ils privilégient
alors la magnitude de l'effet (c'est-à-dire la valeur du risque
relatif) au degré de significativité. En effet, on doute
moins de la véracité d'une association lorsque le risque
relatif est 2 que lorsque le risque relatif est 1,01, même s'il
est très significatif.
Une première table présente les différentes covariables,
toutes considérées comme qualitatives, et la seconde indique
les risques ajustés, c'est-à-dire corrigés pour les
différences démographiques, physiologiques et de pathologies
associées entre patients traités et les autres, ainsi que
le risque relatif (inférieur à 1 car les patients traités
sont protégés) doté de son intervalle de confiance.
Plusieurs courbes permettent alors de présenter les fonctions de
survie dans différents groupes de patients.
Le résultat principal est que, pour tous les sous-groupes, la prescription
à long terme de bêtabloquants diminue le risque de décès
(de 40 %) même chez ceux qui présentent des facteurs habituellement
considérés comme des contre-indications relatives.
CONCLUSION
Remerciements
L'auteur remercie Fabrice Carrat pour ses patientes relectures.
REFERENCES
1. Deguen S. Méthodes multivariées (1) : la régression
linéaire multiple. Sang Thromb Vaiss 1998 ; 10 : 586-90.
2. Camproux AC. Méthodes multivariées (2) : la
régression logistique. Sang Thromb Vaiss 1998 ; 10 : 660-6.
3. Deuffic S. Comparer la survie entre deux groupes. Sang
Thromb Vaiss 1998 ; 10 : 515-20.
4. Gottlieb SS, McCarter RJ, Vogel RA. Effect of beta-blockade
on mortality among high-risk and low-risk patients after myocardial infarction.
N Engl J Med 1998 ; 339 : 489-97.
5. Collett D. Modelling survival data in medical research.
Londres : Chapman & Hall, 1994.
|