Illustrations
Figure 1
Pattern de valeurs manquantes dans les deux sous-populations. En bas à gauche de chaque histogramme, des barres horizontales donnent la fréquence des valeurs manquantes pour chacune des quatre variables étudiées prises isolément. L’histogramme présente la fréquence des cooccurrences de valeurs manquantes, c’est-à-dire, parmi les quatre variables, l’absence simultanée d’une ou des quatre variables (par exemple, dans la population des diabétiques, il y avait 812 patients pour lesquels la cécité et la marche étaient manquantes simultanément).
Figure 1
Figure 2
Proportion de dossiers complets pour les quatre variables d’intérêt (indice de masse corporelle, insuffisance cardiaque, cécité et marche). Les barres représentent les proportions de dossiers complets dans chaque région. La ligne verticale rouge présente la proportion nationale de dossiers complets. En Languedoc-Roussillon, la proportion de dossiers complets est supérieure à la moyenne nationale pour les patients diabétiques mais inférieure à la moyenne nationale chez les patients avec polykystose.
Figure 2
Figure 3
Fréquence régionale des valeurs manquantes dans les deux sous-populations, selon la variable d’intérêt. Les barres horizontales représentent les fréquences de valeurs manquantes observées dans chaque région. Les carrés rouges sont les fréquences prédites par le modèle. La ligne verticale noire indique la fréquence nationale de valeurs manquantes. La valeur de p présente la probabilité d’observer ces écarts entre régions. Si p < 0,05 alors on peut écarter l’hypothèse d’un simple hasard d’échantillonnage.
Figure 3
Figure 4
Fréquence régionale des valeurs manquantes issue d’un modèle hiérarchique portant sur l’ensemble des quatre comorbidités : écart prédit à la moyenne nationale. Plus les régions présentent un écart positif à la moyenne nationale, plus elles ont tendance à laisser des données manquantes parmi les quatre variables étudiées. À l’inverse, plus les régions ont un écart négatif à la moyenne nationale, moins elles ont tendance à laisser des données manquantes.
Figure 4
Figure 5
Corrélation des fréquences régionales de valeurs manquantes : représentation schématique des sous-matrices et de la ligne des corrélations entre les deux sous-populations. En bleu : intensité des corrélations positives ; en rouge : intensité des corrélations négatives. Une coloration bleutée, modulée par son intensité, indique que les régions laissant souvent une variable donnée comme manquante, laissent également l’autre variable comme manquante.
Figure 5
Figure 6
Corrélation entre proportion de valeurs manquantes (« -miss ») et signalement de comorbidités (« -moy ») dans la sous-population diabète. En bleu : intensité (couleur et taille des cercles) des corrélations positives ; en rouge : intensité (couleur et taille des cercles) des corrélations négatives. Le croisement entre insuffisance cardiaque-moy et IMC-miss indique une forte corrélation négative, ce qui signifie que dans les régions où la fréquence de l’insuffisance cardiaque est élevée, il y a moins de valeurs manquantes sur l’IMC chez les patients diabétiques.
Figure 6
Figure 7
Corrélation entre proportion de valeurs manquantes et signalement de comorbidités dans la sous-population polykystose. En bleu : intensité (couleur et taille des cercles) des corrélations positives ; en rouge : intensité (couleur et taille des cercles) des corrélations négatives. Le croisement entre insuffisance cardiaque-moy et IMC-miss indique une forte corrélation négative, ce qui signifie que dans les régions où la fréquence de l’insuffisance cardiaque est élevée, il y a moins de valeurs manquantes sur l’IMC chez les patients avec polykystose.
Figure 7
Figure 8
Corrélation des fréquences régionales de valeurs signalées. En bleu : intensité (couleur et taille des cercles) des corrélations positives ; en rouge : intensité (couleur et taille des cercles) des corrélations négatives. Le croisement entre P marche-moy et D marche-moy indique que dans les régions où la fréquence de la capacité à la marche est élevée chez les patients diabétiques, elle est également élevée chez les patients avec polykystose. Inversement, le croisement entre P marche-moy et D IMC-moy indique que dans les régions où la fréquence de la capacité à la marche est élevée chez les patients avec polykystose, l’IMC est plus faible chez les patients avec diabète.
Figure 8
Tableaux
Auteurs
au nom du registre REIN et de la Commission épidémiologie et santé publique de la SFNDT
1 Registre REIN, Agence de la biomédecine, 1, avenue du Stade de France, 93212 Saint-Denis La Plaine Cedex, France
2 Hôpital universitaire de Poitiers, service de néphrologie, 2, rue de la Milétrie, 86021 Poitiers Cedex, France
3 Hospices civils de Lyon, Pôle santé publique, 5, place d’Arsonval, 69437 Lyon, France
4 Hôpital Pitié-Salpêtrière, AP-HP, service de néphrologie, 47-83, bd de l’Hôpital, 75013 Paris, France
5 Hospices civils de Lyon, service de biostatistiques, 5, place d’Arsonval, 69437 Lyon, France
Correspondance : C. Couchoud
cecile.couchoud@biomedecine.fr
Les données manquantes peuvent introduire des biais et des pertes d’informations dans les études épidémiologiques. Dans cet article, nous proposons une démarche d’analyse des données manquantes sur des variables de comorbidités dans un registre, avec prise en compte de l’organisation territorialisée du recueil. Afin d’illustrer cette démarche, nous avons utilisé le registre national du Réseau épidémiologie et information en néphrologie (REIN) comme cas d’application.