JLE

Environnement, Risques & Santé

MENU

Compléter les non-réponses dans un questionnaire très hiérarchisé : utilisation d’une méthode semi-automatique originale Volume 9, numéro 3, Mai-Juin 2010

Auteurs
Union des caisses nationales de sécurité sociale 18 avenue Léon Gaumont 75980 ParisFrance, Observatoire de la qualité de l’air intérieur Centre scientifique et technique du bâtiment (CSTB) 84, av Jean Jaurès, Champs sur Marne 77447 Marne la ValléeFrance

La présence de non-réponses partielles dans les enquêtes (la personne participe à l’enquête mais ne répond pas à toutes les questions) est inéluctable et se traduit par la présence de valeurs manquantes dans la base de données associée. Elle est potentiellement à l’origine de biais qui faussent les analyses statistiques, engendre une diminution de la précision des estimations et empêche même l’utilisation des méthodes d’analyse statistique multidimensionnelle les plus courantes. Le traitement des non-réponses partielles, bien que complexe, est donc indispensable. L’enquête logements 2003-2005 de l’Observatoire de la qualité de l’air intérieur (OQAI) n’échappe pas à ce désagrément. Même si la proportion de valeurs manquantes au sein des réponses aux questionnaires y est faible – moins de 1 % de l’ensemble des données collectées –, cela représente près de 7 000 valeurs, dispersées sur l’ensemble de la base. La plupart des variables en admettent au moins une et tous les logements de l’échantillon en sont affectés. Une procédure de complétion des valeurs manquantes par imputation statistique a été élaborée et implémentée. Elle permet une imputation quasi déterministe, réalisée afin de tester la démarche et d’évaluer sa robustesse, et une imputation aléatoire. Elle consiste à utiliser les liens statistiquement établis entre les réponses aux variables par une méthode d’analyse appelée « segmentation » et présente le grand avantage de respecter les enchaînements hiérarchiques entre les questions (emboîtements).