Accueil > Revues > Médecine > Bulletin du cancer > Texte intégral de l'article
 
      Recherche avancée    Panier    English version 
 
Nouveautés
Catalogue/Recherche
Collections
Toutes les revues
Médecine
Bulletin du Cancer
- Numéro en cours
- Archives
- S'abonner
- Commander un       numéro
- Plus d'infos
Biologie et recherche
Santé publique
Agronomie et Biotech.
Mon compte
Mot de passe oublié ?
Activer mon compte
S'abonner
Licences IP
- Mode d'emploi
- Demande de devis
- Contrat de licence
Commander un numéro
Articles à la carte
Newsletters
Publier chez JLE
Revues
Ouvrages
Espace annonceurs
Droits étrangers
Diffuseurs



 

Texte intégral de l'article
 
  Version imprimable

L'analyse statistique d'une étude pronostique


Bulletin du Cancer. Volume 88, Numéro 8, 805-10, Août 2001, Note technique


Résumé   Summary  

Auteur(s) : Agnès Laplanche, Cédric Mahé, Département de santé publique, Institut Gustave-Roussy, rue Camille-Desmoulins, 94805 Villejuif Cedex..

Résumé : Les études pronostiques ont pour but de mettre en évidence et de quantifier l'effet de certaines caractéristiques individuelles sur l'évolution d'une maladie. Bien qu'elles soient couramment réalisées dans les domaines de la recherche clinique ou de l'épidémiologie, elles sont rarement fiables et il n'y a pas réellement de consensus dans la façon de les réaliser. L'objectif est d'expliquer les principales étapes de leur analyse en s'appuyant sur les résultats d'une étude pronostique en cancérologie dont l'analyse a été effectuée à l'aide du modèle de Cox avec le logiciel SAS. La première partie aborde la description des données individuelles brutes (les caractéristiques), leur découpage en classes (la catégorisation) et leur transformation en covariables (le codage) afin de les inclure dans le modèle et le problème des données manquantes ; la deuxième partie décrit le processus de construction du modèle (sélection univariée et multivariée) ; la troisième partie aborde le problème de la validation du modèle et de la construction d'indices pronostiques. Enfin, la quatrième partie contient des suggestions quant à la présentation des résultats.

Mots-clés : études pronostiques, analyse de survie, modèle de Cox.

Illustrations

ARTICLE

Les études pronostiques ont pour but de mettre en évidence et de quantifier l'effet de certaines caractéristiques individuelles, appelées facteurs pronostiques, sur l'évolution d'une maladie. En termes statistiques, une étude pronostique se résume le plus souvent à la construction d'un modèle de régression de Cox [1], dans la mesure où le critère mesurant l'évolution de la maladie (le critère de jugement) est bien souvent le délai d'apparition d'un événement (le décès, la récidive, etc.) qui peut être censuré1.

Bien que de telles études soient couramment réalisées en recherche clinique et en épidémiologie, il n'y a pas de consensus dans la façon de les réaliser et leurs résultats sont rarement fiables. Le but de cette note est d'expliquer les principales étapes de leur analyse aux cliniciens afin qu'ils réalisent pourquoi il faut en considérer les résultats avec réserve et, surtout, pourquoi il ne faut les envisager qu'à bon escient. Leur mise en œuvre peut avoir deux objectifs distincts qui relèvent de stratégies d'analyse différentes. On peut souhaiter soit quantifier la valeur pronostique d'un ou plusieurs facteurs spécifiques (par exemple un nouveau marqueur) en ajustant sur les facteurs déjà connus, soit construire un score pronostique afin, par exemple, d'isoler un groupe de malades à très mauvais pronostic sur lequel sera étudié un nouveau traitement.

Cette note est illustrée par les données d'une étude ayant pour but de construire un score pronostique chez des patients présentant une tumeur germinale non séminomateuse (TGNS) [2]. Une cohorte de 238 patients de mauvais pronostic (métastatiques et présentant encore des cellules malignes viables après chimiothérapie) a été suivie pendant une durée médiane d'environ 7 ans. Le critère de jugement est la survie sans événement (taux à 5 ans de 64 %, intervalle de confiance à 95 % : IC 95 % = [58 % ; 70 %]). L'analyse a été effectuée à l'aide du logiciel SAS (SAS Institute Inc.).

Cet article n'aborde ni la conception, ni le nombre de sujets nécessaire, qui font partie des étapes préliminaires. Il est divisé en quatre parties : la première partie aborde la description des données individuelles brutes (les caractéristiques), leur découpage en classes (la catégorisation) et leur transformation en covariables (le codage) afin de les inclure dans le modèle et le problème des données manquantes ; la deuxième partie décrit le processus de construction du modèle (sélection univariée et multivariée) ; la troisième partie aborde le problème de la validation du modèle et de la construction d'indices pronostiques. Enfin, la quatrième partie contient des suggestions quant à la présentation des résultats.

Description, catégorisation, codage et données manquantes

Les caractéristiques mesurées au cours d'une étude pronostique peuvent être de nature très différente : démographique (sexe, âge, groupe ethnique), clinique (fièvre), biologique (taux de prothrombine), histologique, génétique, etc. Elles sont donc très variées et nécessitent une description préalable afin d'en permettre la catégorisation optimale avant leur introduction dans le modèle.

Description des caractéristiques

Pour les caractéristiques non continues, qu'elles soient dichotomiques (sexe), qualitatives non ordonnées (groupe ethnique) ou qualitatives ordonnées (grade de sévérité de la maladie), la description se résume à des fréquences. Dans le cas de variables continues, on indiquera soit la moyenne et l'écart type, soit la médiane et les valeurs extrêmes. Pour la caractéristique continue « pourcentage de cellules viables malignes résiduelles », la médiane (égale à 9 %) sera préférée à la moyenne (égale à 21 %) qui est trop sensible aux valeurs extrêmes. Pour avoir une idée plus précise de la distribution des données au sein de l'échantillon considéré, un histogramme peut également être tracé. Le contrôle des valeurs extrêmes permet de vérifier la plausibilité des données. Enfin, on n'omettra pas de préciser la fréquence des valeurs manquantes.

Catégorisation des caractéristiques

La catégorisation consiste, pour une caractéristique donnée, à regrouper les individus correspondant à des populations supposées homogènes vis-à-vis du pronostic. Elle conduit donc à une perte d'information, mais est cependant conseillée pour permettre d'éluder certaines hypothèses statistiques. En effet, garder une caractéristique dans sa forme brute revient à supposer que l'effet de celle-ci sur le risque d'expérimenter l'événement est log-linéaire. Pour la caractéristique « classification IGCCC » à trois classes (bon pronostic, pronostic intermédiaire et mauvais pronostic), cela signifierait que le risque d'événement augmente de la même façon entre les sujets de bon pronostic et de pronostic intermédiaire, qu'entre les sujets de pronostic intermédiaire et de mauvais pronostic (on verra au paragraphe sur le codage que ce n'est pas le cas). L'autre argument plaidant en faveur de la catégorisation est clinique. En ce qui concerne le pourcentage de cellules viables malignes par exemple, il est en effet nettement plus parlant de dire que le risque encouru par un individu ayant un pourcentage de cellules viables malignes supérieur ou égal à 10 % est environ deux fois plus élevé que celui d'un individu ayant un pourcentage inférieur à 10 %, plutôt que de dire que ce risque est multiplié par 1,008 pour chaque augmentation d'une unité du pourcentage de cellules viables malignes.

Pour les caractéristiques continues, il semble que la perte d'information résultant de la catégorisation soit relativement faible si l'on choisit une séparation en trois classes ou plus [3]. Cependant, la séparation en deux classes est généralement la plus utilisée car elle conduit à une interprétation nettement plus aisée des résultats et à une modélisation beaucoup plus simple. On choisira, autant que possible, des points de césure définis a priori par les connaissances cliniques de cette caractéristique et les relations qui la lient au pronostic. En revanche, la séparation en deux groupes par la « méthode du point de césure optimal » est statistiquement inacceptable. Cette méthode, qui est devenue commune dans la littérature en cancérologie, consiste à étudier toutes les façons de séparer la population en deux, pour choisir comme valeur seuil de la caractéristique celle qui conduit à la plus grande différence d'évolution entre les deux sous-groupes. Non seulement on ne maîtrise plus l'erreur de première espèce, car on a effectué des tests multiples, mais on obtient également un point de césure probablement non reproductible d'un échantillon de patients à l'autre [4]. Cette méthode conduit souvent à identifier à tort un facteur pronostique [5]. En l'absence d'une quelconque idée a priori sur une césure convenable, l'approche la plus sûre consiste à considérer les quantiles afin de former des sous-groupes d'effectifs identiques. Cependant, les quantiles étant définis par les données, différentes études auront différents points de césure et les résultats ne seront pas comparables.

Codage

Une fois la catégorisation effectuée, il est ensuite nécessaire de coder les différentes modalités de la caractéristique. Par convention, on choisit en général comme classe de référence celle supposée de meilleur pronostic. Par exemple pour le type de chirurgie, on a codé en 0 la modalité associée au meilleur pronostic (chirurgie complète) et en 1 l'autre modalité (chirurgie incomplète). En cas de caractéristique à plus de deux classes, s'il n'existe pas de tendance entre les k classes de la caractéristique, le codage en une seule variable ordinale n'est pas adéquat. C'est la raison pour laquelle, pour la caractéristique « classification IGCCC », on n'a pas utilisé le codage 1, 2, 3 pour le bon pronostic, le pronostic intermédiaire et le mauvais pronostic respectivement. On a créé (k - 1) variables, soit les deux variables (IGCCCA et IGCCCB), par la méthode des contrastes :

Comme le risque attaché à chacune de ces deux variables est du même ordre de grandeur (2,3 et 2,4), ce qui signifie qu'en prenant les sujets de bon pronostic comme référence, le risque des sujets de pronostic intermédiaire est du même ordre de grandeur que celui des sujets de mauvais pronostic, on a été conduit à regrouper les classes pronostic intermédiaire et mauvais pronostic (variable IGCCC2).

Données manquantes

L'existence de données manquantes est un réel problème sans solution simple pleinement satisfaisante. En effet, l'estimation de l'effet des covariables sur le critère de jugement à l'aide d'un modèle de régression ne prend en compte que les observations dont toutes les covariables sont connues. La solution qui consiste à éliminer les sujets présentant des données manquantes (méthode utilisée ici) est fréquemment utilisée mais conduit à une perte de puissance (l'analyse multivariée porte sur 146 sujets alors que l'effectif initial est de 238 sujets) et revient à supposer que la survenue des données manquantes est aléatoire, ce qui n'est pas nécessairement le cas. Pour résoudre ce problème, des méthodes d'imputations des valeurs manquantes ont été développées (logiciel Solas, Statistical Solutions). Afin d'éviter toute hypothèse sur la distribution des valeurs manquantes, une autre solution consiste à coder les valeurs manquantes comme une catégorie à part, mais cela conduit généralement à une interprétation difficile de cette catégorie supplémentaire. Dans tous les cas, on évitera de remplacer des données manquantes par la médiane calculée sur les autres valeurs de cette covariable ; cette démarche conduit non seulement à des estimations biaisées, mais aussi à une surestimation de la précision de ces estimations.

Construction du modèle

Avant d'entrer dans le cœur même de la construction du modèle, il faut s'assurer que les hypothèses sur lesquelles il repose sont vérifiées, c'est-à-dire que les risques pour les différentes modalités de la covariable sont proportionnels au cours du temps et que l'effet des covariables sur le risque d'événement est log-linéaire (cette dernière hypothèse doit avoir été vérifiée lors de l'étape précédente). Une vérification simple de l'hypothèse de proportionnalité des risques consiste à tracer, pour chacune des classes de la covariable considérée, la courbe log{- log[S(t)]}, où S(t) est la courbe de survie non paramétrique estimée par la méthode de Kaplan-Meier, afin de s'assurer que les courbes sont à peu près translatées les unes par rapport aux autres. En pratique, prétextant la robustesse du modèle de Cox, cette hypothèse est rarement vérifiée par le biostatisticien. Si les risques ne sont pas proportionnels, on stratifiera le modèle sur la caractéristique qui pose problème. La stratification permet de considérer les diverses classes de la caractéristique comme des sous-populations entre lesquelles on ne cherche pas à modéliser de relation. Cependant, dans le cadre d'une étude pronostique, la stratification n'est pas très intéressante dans la mesure où les relations existant entre les caractéristiques des différentes sous-populations nous intéressent particulièrement. Une alternative consiste à estimer des risques différents au cours du temps.

Sélection univariée

La première étape de la construction du modèle consiste à déterminer si chacune des covariables créées précédemment est pronostique. Pour chacune d'elles, on utilise le modèle de Cox (procédure PHREG) afin d'estimer le coefficient de régression qui lui est associé : un seuil de signification inférieur à 0,05 pour le test de Wald (test de nullité du coefficient de régression) indique que la covariable, prise isolément, influe significativement sur le critère de jugement et est donc pronostique en univarié.

Dans le cas des caractéristiques à k modalités (avec k > 2), on peut, selon le codage retenu, effectuer un test global de signification avec k - 1 degrés de liberté ou réaliser k - 1 tests pour analyser chaque variable indicatrice séparément.

Principe de la sélection multivariée

Le principe de la sélection multivariée est d'exclure les covariables « moins importantes » afin de ne retenir dans le modèle qu'un petit nombre de covariables « importantes » (prédisant au mieux les différentes propensions individuelles à expérimenter l'événement d'intérêt). Cette sélection doit aboutir à une combinaison de covariables qui auront toutes une valeur pronostique (toutes significatives) lorsqu'elles seront prises simultanément.

L'ensemble des covariables parmi lesquelles on va sélectionner la combinaison de covariables finales ne doit pas être restreint aux seules covariables significatives en univarié. En effet, les études pronostiques comportent souvent un grand nombre de covariables qui mesurent plus ou moins la même chose et qui sont donc liées. Lorsque l'on effectue une sélection multivariée, il est donc normal de voir disparaître des covariables dont le rôle pronostique était important en analyse univariée, si celles-ci sont corrélées à d'autres covariables retenues dans le modèle. Inversement, des covariables non significatives en univarié peuvent très bien se montrer pronostiques en multivarié. Les covariables parmi lesquelles seront sélectionnées celles du modèle final seront donc, en principe, les covariables les plus pronostiques en univarié, même si elles ne sont pas toutes significatives.

Le nombre de covariables qu'il est possible d'étudier dépend du nombre d'événements observés et non du nombre d'individus présents dans l'étude. Dans une étude de type survie, le nombre d'événements doit être environ dix fois plus élevé que le nombre de covariables étudiées (c'est-à-dire celles parmi lesquelles on va sélectionner les facteurs pronostiques) [6].

La stratégie d'analyse dépend bien sûr de l'objectif de l'étude, mais il faut toujours recourir à une stratégie raisonnée afin que ce soit le chercheur et non l'ordinateur qui choisisse les covariables à inclure dans le modèle. Cette stratégie est d'autant plus indispensable que l'on dispose de connaissances préalables sur la valeur pronostique de certains facteurs. Elle permet : 1) de s'assurer que l'on inclut bien toutes les variables connues, 2) de choisir de manière raisonnée, parmi les variables fortement liées entre elles, celles que l'on va garder, 3) de démarrer l'analyse multivariée avec un minimum de variables, donc moins de sujets exclus pour données manquantes, 4) de réduire de ce fait le nombre de tests, 5) de ne pas laisser échapper des variables importantes qui seraient non significatives en univarié.

Mode de sélection

Au sein de la procédure PHREG du logiciel SAS, quatre méthodes de sélection multivariée sont disponibles : les sélections ascendante, descendante, mixte et la méthode du score. La sélection ascendante consiste à ajouter les covariables une à une dans le modèle, en commençant par la plus significative (c'est-à-dire celle qui présente l'association la plus significative avec le critère à expliquer) ; la procédure s'arrête dès que le seuil d'entrée dans le modèle est dépassé. La sélection descendante est la démarche inverse. Au début, toutes les covariables sont incluses dans le modèle, puis elles sont enlevées une à une en commençant par la moins significative et cela jusqu'à ce que l'on ne puisse plus ôter de covariables avec le seuil fixé. La sélection mixte est une combinaison de ces deux approches : on commence avec un modèle sans covariable ; les variables sont alors entrées une à une par seuil de signification croissant, mais les covariables déjà présentes dans le modèle peuvent être enlevées (une à une) si leur seuil de signification devient inférieur à celui d'une covariable susceptible d'entrer dans le modèle. La méthode du score est différente dans la mesure où elle ne propose pas de modèle ; cette procédure calcule la statistique du score pour tous les modèles possibles en fonction des covariables incluses. En fait, cette approche permet de proposer le meilleur modèle pour un nombre donné de covariables incluses.

Ces différentes démarches peuvent aboutir à des modèles différents. Pour cette raison, il peut être intéressant d'effectuer différentes méthodes de sélection afin de vérifier si le modèle final est stable. La méthode du score peut être employée à titre de vérification (le modèle obtenu doit être celui qui a le score le plus grand pour le nombre de covariables sélectionnées). Certains auteurs semblent pencher en faveur d'une sélection descendante [7, 8]. En revanche, l'utilisation unique de l'approche mixte est déconseillée pour des raisons de stabilité incertaine, notamment si l'on introduit un grand nombre de covariables ou si celles-ci sont fortement corrélées. Quelle que soit la méthode utilisée, il faut garder à l'esprit que pour les caractéristiques à plusieurs modalités codées par la méthode des contrastes, les covariables obtenues sont dépendantes et ne peuvent être considérées isolément. Il faut donc forcer l'ensemble des modalités de la caractéristique si l'une d'elles est significative. On aboutit donc parfois à un modèle final peu interprétable (certaines modalités d'une même variable sont significatives et d'autres pas). Nous avons effectué la sélection multivariée (descendante) parmi les 8 covariables significatives au seuil 0,15 en univarié (leur définition et les résultats univariés figurent au tableau). Les trois covariables significatives après sélection multivariée sont le type de chirurgie, la classification IGCCC et le pourcentage de cellules malignes viables. Cette sélection a été réalisée sur les individus dont les 8 covariables sont disponibles. Pour cette raison, une fois cette sélection effectuée, il est important d'estimer de nouveau l'effet des covariables sélectionnées à l'aide d'un modèle de Cox sans sélection. Cette démarche permet en effet de récupérer les individus pour lesquels les valeurs manquantes sont uniquement observées au sein de covariables non sélectionnées.

Interprétation

L'ordre d'entrée des covariables dans le modèle n'est pas synonyme de leur ordre d'importance. Pour des covariables à deux classes par exemple, si la classe associée à un haut risque est de faible fréquence, la covariable sera moins significativement associée avec le critère de jugement (et donc jugée moins importante) qu'une autre covariable moins pronostique mais dont les classes seraient plus équilibrées ; d'où l'intérêt de privilégier des classes de mêmes effectifs pour la catégorisation des covariables afin d'assurer une certaine comparabilité au niveau du degré de signification des covariables entre elles.

D'autre part, les stratégies de sélection ignorent le nombre de comparaisons effectivement réalisées. Ainsi, la probabilité de découvrir une association erronée entre une covariable et le critère de jugement est élevée. Par ailleurs, dans une étude pronostique, un seuil de signification de 5 % associé à l'effet d'une covariable ne doit pas être interprété comme un seuil de signification identique observé dans un essai thérapeutique. L'interprétation des résultats devra donc se faire avec précaution, surtout pour des degrés de signification proches de 5 %.

Covariables liées à une thérapeutique

Il ne faut pas étudier l'effet des traitements dans une étude pronostique dans la mesure où ceux-ci dépendent souvent du pronostic individuel et sont donc fortement corrélés avec les autres covariables. C'est pourquoi le traitement est généralement considéré comme un facteur de confusion ou comme un facteur de stratification. Il peut également être inclus sous la forme d'une covariable dans le modèle final, mais il ne doit en aucun cas faire partie du panel des covariables parmi lesquelles la sélection du modèle s'opère. Pour étudier l'effet de la chimiothérapie, cette covariable (codée 1 en cas de chimiothérapie adjuvante et 0 sinon) a été introduite avec les trois covariables pronostiques retenues ; l'effet des différents facteurs pronostiques change peu et le risque d'événement diminue de 70 % en cas de chimiothérapie.

Interaction

Les interactions servent à modéliser les cas où l'effet de l'association de plusieurs covariables est différent de l'effet additif de ces covariables prises isolément. Habituellement, les interactions se rencontrent principalement entre le traitement et les autres covariables. Pour tester une interaction, on peut introduire dans le modèle de Cox, en supplément des covariables initiales (termes principaux), une covariable (le terme d'interaction) égale au produit des covariables dont on souhaite étudier l'interaction. Si l'effet associé à la covariable d'interaction est significativement différent de 0, l'interaction est dite significative. L'interaction positive est dite synergique, l'interaction négative est dite antagoniste. Le terme d'interaction est indissociable des termes principaux (qui représentent les effets marginaux) et tous doivent être inclus dans le modèle. Si l'interaction est significative, les termes principaux doivent être forcés dans le modèle (quel que soit leur degré de signification).

Validation du modèle et construction d'un score pronostique

Validation du modèle

Généralement, les coefficients du modèle final sont biaisés et les degrés de signification qui leur sont associés ne correspondent pas au risque d'erreur réel car on a sélectionné le modèle et estimé les paramètres de celui-ci sur le même jeu de données. La validité d'un ensemble de facteurs pronostiques dépend de sa reproductibilité sur un nouvel échantillon de patients. L'idéal serait donc de scinder l'échantillon en deux parties afin de constituer un échantillon d'analyse et un échantillon de validation. Cela est cependant rarement effectué en raison du nombre souvent limité de sujets d'une étude pronostique. Il est toutefois vivement conseillé de vérifier la valeur pronostique d'un facteur nouvellement identifié sur une autre population. En effet, un changement, même mineur, dans le jeu de données peut aboutir à un modèle différent.

Construction d'un score pronostique

Un bon facteur pronostique n'a pas obligatoirement un seuil de signification élevé mais explique une grande part de la variabilité du critère de jugement entre les différents individus. En effet, la puissance prédictive d'un modèle est liée, non seulement à la fiabilité du modèle, mais surtout à son pouvoir discriminant. Pour mesurer la puissance prédictive d'un modèle, on peut par exemple calculer pour chaque sujet son score de Cox (qui est l'exponentielle de la somme des produits des coefficients estimés dans le modèle final par les covariables de l'individu considéré), puis tracer les courbes de survie correspondant à ce score découpé en classes. Dans notre exemple, les trois facteurs retenus ayant un risque relatif assez proche (2,6, 2,8 et 2,3, tableau), les groupes pronostiques ont été construits directement sur le nombre de facteurs : le groupe 0 concerne les 32 patients ne présentant aucun des trois facteurs (chirurgie complète, IGCCC bon pronostic et moins de 10 % de cellules malignes viables) ; le groupe 1 concerne les 59 patients présentant un seul des trois facteurs ; le groupe 2 concerne les 55 patients présentant au moins deux des trois facteurs. Les courbes de survie sans événement associées aux trois groupes sont présentées sur la figure 1. Une bonne séparation de ces courbes est le reflet d'une bonne puissance discriminante du modèle construit. Il faut cependant souligner que ces courbes surestiment généralement la valeur pronostique du modèle car elles sont estimées sur le même jeu de données que celui qui a servi à sélectionner les variables et à estimer les coefficients de régression.

Présentation des résultats

Lors de la présentation des résultats d'études de survie, il est indispensable de fournir les risques relatifs ajustés (analyse multivariée) et vivement conseillé de fournir également les risques non ajustés (analyse univariée). Il est également recommandé de ne pas présenter uniquement les facteurs significatifs. Pour chaque facteur présenté, on donnera l'estimation du risque (RR), son intervalle de confiance à 95 % et la valeur du degré de signification correspondant. On prendra soin de présenter, comme au tableau pour chaque covariable, le découpage en classes effectué, les effectifs de chaque classe et la classe de référence retenue (celle qui a un RR = 1).

Note :

1 Une donnée est dite censurée si l'on n'en connaît pas la valeur exacte, mais que l'on sait seulement que cette valeur est plus grande qu'une quantité connue. L'exemple le plus fréquent est celui de la durée de survie : on sait que la durée de survie D d'un patient suivi pendant une période de temps T et encore vivant à la fin de cette période de surveillance est supérieure à T.

CONCLUSION

Dans cette note, on a abordé l'analyse statistique d'une étude pronostique dont le critère de jugement est censuré. Cependant, il est possible de généraliser cette démarche à l'étude de critères de jugement de nature différente et au modèle de régression qui leur est associé (critère binaire et modèle de régression logistique, critère continu et modèle de régression linéaire).

Un modèle statistique est une construction artificielle qui doit être testée en tant que telle avant son utilisation. Bien que le terme « adéquation » n'ait pas été employé, cette procédure est contenue dans la démarche décrite au cours de cette note. En effet, l'adéquation d'un modèle comprend deux volets : le réalisme de la structure du modèle et une bonne puissance prédictive. La réponse à la première question est fournie par la vérification des propriétés du modèle de Cox lors du codage des covariables ; la réponse à la seconde question peut être donnée de façon satisfaisante par la validation du modèle sur un échantillon externe et par une bonne discrimination pronostique.

La parcimonie du modèle final et son accord avec les connaissances médicales sont deux critères très importants pour définir son utilité et son acceptabilité.

REFERENCES

1. Cox DR. Regression models and life tables. J Roy Stat Soc Series B 1972 ; 34 : 187-220.

2. Fizazi K, Tjulandin S, Salvioni R, Ragan R, Bokemeyer C, Gerl A, et al. Viable malignant cells after primary chemotherapy for metastatic non-seminomatous germ-cell tumors (NSGCT) : results from an international study. Proceeding of the 1999 ASCO meeting.

3. Connors RJ. Grouping for testing trends in categorical data. JASA 1972 ; 67 : 601-4.

4. Hill C. Valeur pronostique d'une variable continue et point de césure optimal. Bull Cancer 1993 ; 80 : 649-52.

5. Altman DG, Laussen B, Sauerbrei W, Schumacher M. Dangers of using « optimal cutpoints in the evaluation of prognostic factors ». J Natl Cancer Inst 1994 ; 86 : 829-35.

6. Harrell F, Lee K. Regression modeling strategies for improved prognostic prediction. Stat Med 1984 ; 3 : 143-52.

7. Mantel N. Why stepdown procedures in variable selection ? Technometrics 1970 ; 12 : 621-5.

8. Sauerbrei W. Variablenselektion in regresionsmodellen unter besonderer berücksistigung medizinischer fragestellungen. Dortmund : PhD Dissertation, Université de Dortmund, 1992.


 

Qui sommes-nous ? - Contactez-nous - Conditions d'utilisation - Paiement sécurisé
Actualités - Les congrès
Copyright © 2007 John Libbey Eurotext - Tous droits réservés
[ Informations légales - Powered by Dolomède ]