Environnement, Risques & Santé
MENUCompléter les non-réponses dans un questionnaire très hiérarchisé : utilisation d’une méthode semi-automatique originale Volume 9, numéro 3, Mai-Juin 2010
Illustrations
- Mots-clés : bases de données, biais, enquêtes, imputation, interprétation statistique des données, questionnaires, statistiques, valeur manquante
- DOI : 10.1684/ers.2010.0345
- Page(s) : 223-30
- Année de parution : 2010
La présence de non-réponses partielles dans les enquêtes (la personne participe à l’enquête mais ne répond pas à toutes les questions) est inéluctable et se traduit par la présence de valeurs manquantes dans la base de données associée. Elle est potentiellement à l’origine de biais qui faussent les analyses statistiques, engendre une diminution de la précision des estimations et empêche même l’utilisation des méthodes d’analyse statistique multidimensionnelle les plus courantes. Le traitement des non-réponses partielles, bien que complexe, est donc indispensable. L’enquête logements 2003-2005 de l’Observatoire de la qualité de l’air intérieur (OQAI) n’échappe pas à ce désagrément. Même si la proportion de valeurs manquantes au sein des réponses aux questionnaires y est faible – moins de 1 % de l’ensemble des données collectées –, cela représente près de 7 000 valeurs, dispersées sur l’ensemble de la base. La plupart des variables en admettent au moins une et tous les logements de l’échantillon en sont affectés. Une procédure de complétion des valeurs manquantes par imputation statistique a été élaborée et implémentée. Elle permet une imputation quasi déterministe, réalisée afin de tester la démarche et d’évaluer sa robustesse, et une imputation aléatoire. Elle consiste à utiliser les liens statistiquement établis entre les réponses aux variables par une méthode d’analyse appelée « segmentation » et présente le grand avantage de respecter les enchaînements hiérarchiques entre les questions (emboîtements).