Les données manquantes en bio-statistique Pr N. MEYER Laboratoire de Biostatistique - Faculté de Médecine Dép. Santé Publique CHU - STRASBOURG Master Statistiques et Applications — 10 mars 2011 N. MEYER Données manquantes Introduction Définitions Les méthodes d’analyse Conclusion Importance du problème Les données Toute étude ⇒ recueillir des données Les variables sont qualitatives ou quantitatives La plannification de l’étude ⇒ on espère recueillir toutes les données nécessaires = Toutes les données pour toutes les variables pour tous les sujets N. MEYER Données manquantes Introduction Définitions Les méthodes d’analyse Conclusion Importance du problème Les données manquantes Données manquantes (DM) : données que l’on voulait recueillir mais qui ne l’ont pas été. Données qui devaient être recueillies mais dont la vraie valeur est inconnue Exemples : sujet qui ne répond qu’à certaines questions d’un sondage absence de réponse à l’une des vagues d’une enquête longitudinale DM sont très fréquentes : 95% des jeux de données sont incomplets (au moins une DM) Prévalence plus ou moins importante : de quelques unes à plus de 50% de DM Semblent pratiquement inévitables N. MEYER Données manquantes Introduction Définitions Les méthodes d’analyse Conclusion Classification méthodologique des DM Impact des données manquantes Effet des manquants Classification de Little et Rubin Donnée manquante Définition : Soit une variable aléatoire X quelconque. Une DM xm est une donnée pour laquelle la valeur X = x est inconnue. On ne dispose pas de la valeur de X pour le sujet i . N. MEYER Données manquantes Introduction Définitions Les méthodes d’analyse Conclusion Classification méthodologique des DM Impact des données manquantes Effet des manquants Classification de Little et Rubin Classification méthodologique des DM Origine matérielle des DM : La valeur de xi n’a pas été mesurée (oubli...) la valeur : mesurée mais perdue ou non notée la valeur : mesurée, notée, mais considérée comme non utilisable : donnée jugée aberrante / erreur manifeste la donnée : mesurée mais pas disponible : (( Ne Sait Pas )) idem : cas particuliers de données censurées. N. MEYER Données manquantes Introduction Définitions Les méthodes d’analyse Conclusion Classification méthodologique des DM Impact des données manquantes Effet des manquants Classification de Little et Rubin Classification méthodologique des DM Des cas particuliers où la donnée est mesurée mais n’est pas disponible → donnée connue partiellement mais pas totalement manquante censure (1) : la valeur < ou > limites de détection de l’outil HIV : nombre de copies du virus sous la limite de détection D-dimères : si > 20000 : 20000 et la vraie valeur est inconnue censure (2) : des études de survie durée de survie : supérieure à une durée d données (( non encore manquantes )) : indice CAO → si dent non sortie, CAO sur ensemble incomplet distinguer la DM et le zéro d’échantillonage N. MEYER Données manquantes Introduction Définitions Les méthodes d’analyse Conclusion Classification méthodologique des DM Impact des données manquantes Effet des manquants Classification de Little et Rubin Classification par rapport à l’unité statistique La donnée est manquante en raison de : non réponse de l’unité statistique : aucune mesure n’est obtenue pour l’unité statistique non réponse pour l’item : seule manque la mesure sur la variable X considérée. en général, DM non intentionnellement (tous les cas précédent) manquant intentionnel : sondage par bloc de variable → problème du data matching N. MEYER Données manquantes Introduction Définitions Les méthodes d’analyse Conclusion Classification méthodologique des DM Impact des données manquantes Effet des manquants Classification de Little et Rubin Les DM d’un point de vue statistique En analysant des données incomplètes, on souhaite avoir des résultats valides malgré les DM Valides : i.e. p-valeurs, intervalles de confiances et estimations ponctuelles (moyenne, variance, proportions, paramètres de régression, etc) correctes ou encore des distributions a posteriori correctes Ceci n’est possible que dans des conditions assez restrictives. La plupart du temps, il faut faire des hypothèses que l’on ne peut pas vérifier. N. MEYER Données manquantes Introduction Définitions Les méthodes d’analyse Conclusion Classification méthodologique des DM Impact des données manquantes Effet des manquants Classification de Little et Rubin Les DM d’un point de vue statistique Ceci implique le mécanisme aboutissant à une DM : le mécanisme des manquants et si ce mécanisme dépend d’autre variables (mesurées ou non). Ce mécanisme des manquants est généralement inconnu d’un point de vue pratique mais il existe une classification théorique ⇒ Classification statistique des données manquantes (Little & Rubin) ⇒ Important : Diffèrentes situations → diffèrentes méthodes statistiques N. MEYER Données manquantes Introduction Définitions Les méthodes d’analyse Conclusion Classification méthodologique des DM Impact des données manquantes Effet des manquants Classification de Little et Rubin Un exemple sur une variable variable X , n-échantillon dont m valeurs manquantes & taille de l’échantillon de n à n − m = np , de m/n % on peut estimer m̄ et s 2 sur les n − m présents valide que si np valeurs : sous-échantillon aléatoire des n le fait d’être manquant ne dépend pas de la valeur (manquante) Pr(xi : ∗) = p, ∀i . sinon il y a un biais N. MEYER Données manquantes Introduction Définitions Les méthodes d’analyse Conclusion Classification méthodologique des DM Impact des données manquantes Effet des manquants Classification de Little et Rubin Effet des manquants : Un exemple (1) Biais et Perte de Puissance on tire 1000 valeurs d’une v.a. gaussienne centrée réduite on vérifie sa moyenne et sa variance et on trace l’histogramme des valeurs on supprime aléatoirement 250 valeurs sur l’ensemble des valeurs du vecteur on vérifie que la moyenne et la variance du sous-échantillon sont proches des valeurs de l’échantillon de départ N. MEYER Données manquantes Introduction Définitions Les méthodes d’analyse Conclusion Classification méthodologique des DM Impact des données manquantes Effet des manquants Classification de Little et Rubin Effet des manquants : Un exemple (2) On retire ensuite des valeurs surtout dans les valeurs basses de l’échantillon : on retire 225 valeurs parmi les valeurs basses et 25 parmi les valeurs hautes. on calcule la moyenne et la variance de l’échantillon et on trace son histogramme. On vérifie que les estimations des paramètres sont biaisés. N. MEYER Données manquantes Introduction Définitions Les méthodes d’analyse Conclusion Classification méthodologique des DM Impact des données manquantes Effet des manquants Classification de Little et Rubin Autres exemple Voir simulations sur R. modifications des paramètres selon les manquants. N. MEYER Données manquantes Introduction Définitions Les méthodes d’analyse Conclusion Classification méthodologique des DM Impact des données manquantes Effet des manquants Classification de Little et Rubin la forme de la distribution obervée sur les données complètes n’est pas forcément la forme de la distribution complète. en présence de données manquantes : biais ? importance ? la distribution observée sur le sous-échantillon complet est-elle représentative de la forme de la distribution dans la population ? si on observe une distribution asymétrique, est-elle asymétrique ou bien le mécanisme des manquants est non-aléatoire ? N. MEYER Données manquantes Introduction Définitions Les méthodes d’analyse Conclusion Classification méthodologique des DM Impact des données manquantes Effet des manquants Classification de Little et Rubin si les DM sont manquantes aléatoirement : le mécanisme est (( ignorable )) si les DM sont manquantes non aléatoirement (i.e. si la proba que xi soit manquant dépend de la valeur de xi , le mécanisme n’est pas (( ignorable )), et les analyses sur le sous-échantillon sont sujettes à biais. si censure complète au dela d’un seuil, par exemple 0 : Pr(Ri = 1|yi ) = Pr(yi obs|yi ) = 1 si yi < 0, 0 sinon. N. MEYER Données manquantes Introduction Définitions Les méthodes d’analyse Conclusion Classification méthodologique des DM Impact des données manquantes Effet des manquants Classification de Little et Rubin Classification des manquants Classification introduite par Little et Rubin (1976, Biometrika) ; encore appelé (( distribution of missingness )) Pr(ri |xi ; yi ; φ) : Probabilité que xi soit manquant introduit non pas pour le modèliser car en général l’information est insuffisante pour le modèliser correctement mais pour savoir dans quelle conditions on peut l’ignorer N. MEYER Données manquantes Introduction Définitions Les méthodes d’analyse Conclusion Classification méthodologique des DM Impact des données manquantes Effet des manquants Classification de Little et Rubin Classification des manquants Situation bivariée : les éléments Soit deux V.A. X et Y , n réalisations. X est complètement observée Y comporte des valeurs manquantes les deux V.A. X et Y soit qualitative(s) soit quantitative(s) sans perte de généralité. N. MEYER Données manquantes Introduction Définitions Les méthodes d’analyse Conclusion Classification méthodologique des DM Impact des données manquantes Effet des manquants Classification de Little et Rubin Situation bivariée sujet X Y 1 ... ii ... i +1 ... n x1 ... xi ... xi+1 ... xn y1 ... yi ... * ... * Tab.: Classification de Little & Rubin N. MEYER Données manquantes Introduction Définitions Les méthodes d’analyse Conclusion Classification méthodologique des DM Impact des données manquantes Effet des manquants Classification de Little et Rubin Les trois cas possibles (1) La probabilité d’avoir une valeur manquante est indépendante de X et de Y Pr (D : Mqt|obs, mqt) = Pr (D : Mqt) (2) La probabilité d’avoir une valeur manquante dépend de X mais pas de Y Pr (D : Mqt|obs, mqt) = Pr (D : Mqt|obs) (3) La probabilité d’avoir une valeur manquante dépend de X et de Y Pr (D : Mqt|obs, mqt) = Pr (D : Mqt|obs, mqt) N. MEYER Données manquantes Introduction Définitions Les méthodes d’analyse Conclusion Classification méthodologique des DM Impact des données manquantes Effet des manquants Classification de Little et Rubin Les trois cas possibles soit Y = {Yij } un jeu de données composé de deux parties : Y = (Yobs , Ymqt ) soit une indicatrice Rij telle que Rij = 1 si Yij est manquant et Rij = 0 sinon le mécanisme des manquants est spécifié par un modèle pour la probabilité de réponse : Pr(R = r |Y = y, θ) = fR/Y (r |yobs , ymqt , θ) le mécanisme est donc la distribution de R sachant Y . N. MEYER Données manquantes Introduction Définitions Les méthodes d’analyse Conclusion Classification méthodologique des DM Impact des données manquantes Effet des manquants Classification de Little et Rubin Les trois cas possibles (1) La situation MCAR : R et Y sont indépendant, la distribution de R ne dépend pas des données fR/Y (r |yobs , ymqt , θ) = fR (r |θ) (2) Situation MAR : la connaissance de Ymiss ne donne pas d’information supplémentaire sur R si Yobs est déjà connu. La distribution de R ne dépend pas des manquants fR/Y (r |yobs , ymqt , θ) = fR (r |yobs , θ) (3) La distribution de R dépend de la valeur (inconnue) des manquants fR/Y (r |yobs , ymqt , θ) = fR (r |yobs , ymqt , θ) N. MEYER Données manquantes Introduction Définitions Les méthodes d’analyse Conclusion Classification méthodologique des DM Impact des données manquantes Effet des manquants Classification de Little et Rubin Premier cas : MCAR La probabilité d’avoir une valeur manquante est indépendante de X et de Y les valeurs manquantes sont Manquantes Aléatoirement Missing at random : MAR les données observées sont Observées Aléatoirement Observed at random : OAR ,→ les données sont manquantes complétement aléatoirement Missing Completely at Random : MCAR les valeurs Y observées : sous-échantillon aléatoire de Y N. MEYER Données manquantes Introduction Définitions Les méthodes d’analyse Conclusion Classification méthodologique des DM Impact des données manquantes Effet des manquants Classification de Little et Rubin 1.0 x x x x 0.0 0.5 x x −0.5 Y : categorical variable 1.5 MCAR : Missing Completely At Random 0.0 0.2 0.4 0.6 0.8 X : continuous variable N. MEYER Données manquantes 1.0 Introduction Définitions Les méthodes d’analyse Conclusion Classification méthodologique des DM Impact des données manquantes Effet des manquants Classification de Little et Rubin Deuxième cas : MAR La probabilité d’avoir une valeur manquante dépend de X mais pas de Y on dit que le données sont manquantes aléatoirement Missing at Random : MAR les valeurs observées de Y ne sont pas forcément un sous-échantillon aléatoire des valeurs échantillonnées de Y mais elles sont un sous-échantillon aléatoire de Y dans des sous-classes définies par les valeurs de X . N. MEYER Données manquantes Introduction Définitions Les méthodes d’analyse Conclusion Classification méthodologique des DM Impact des données manquantes Effet des manquants Classification de Little et Rubin 1.5 MAR : Missing At Random xxxx 0.5 x x x xxx x −0.5 0.0 Y : categorical variable 1.0 x 0.0 0.2 0.4 0.6 0.8 1.0 X : continuous variable Yobs est un sous-échantillon aléatoire / représentatif de Y dans des catégories de X . N. MEYER Données manquantes Introduction Définitions Les méthodes d’analyse Conclusion Classification méthodologique des DM Impact des données manquantes Effet des manquants Classification de Little et Rubin 1.5 MAR : Missing At Random xxxx 0.5 x x x xxx x −0.5 0.0 Y : categorical variable 1.0 x 0.0 0.2 0.4 0.6 0.8 1.0 X : continuous variable Yobs est un sous-échantillon aléatoire / représentatif de Y dans des catégories de X . N. MEYER Données manquantes Introduction Définitions Les méthodes d’analyse Conclusion Classification méthodologique des DM Impact des données manquantes Effet des manquants Classification de Little et Rubin Troisième cas : MNAR La probabilité d’avoir une valeur manquante dépend de X et de Y les valeurs ne sont ni manquantes aléatoirement (non MAR) ni obervées aléatoirement (non OAR) les données sont manquantes non aléatoires : M Not AR (MNAR) N. MEYER Données manquantes Introduction Définitions Les méthodes d’analyse Conclusion Classification méthodologique des DM Impact des données manquantes Effet des manquants Classification de Little et Rubin x x 0.5 1.0 x 0.0 xxxxxx −0.5 Y : categorical variable 1.5 MNAR : Missing Not At Random 0.0 0.2 0.4 0.6 0.8 X : continuous variable N. MEYER Données manquantes 1.0 Introduction Définitions Les méthodes d’analyse Conclusion Classification méthodologique des DM Impact des données manquantes Effet des manquants Classification de Little et Rubin Conséquences Si MCAR et MAR le mécanisme des manquants peut être ignoré pour les méthodes d’inférence basées sur la vraisemblance Dans le cas MCAR, le mécanisme peut-être ignoré à la fois pour les approches basées sur la vraisemblance et pour les approches basées sur l’échantillonage Dans le cas MNAR le mécanisme ne peut pas être ignoré N. MEYER Données manquantes Introduction Définitions Les méthodes d’analyse Conclusion Classification méthodologique des DM Impact des données manquantes Effet des manquants Classification de Little et Rubin Quelques exemples le café sur la feuille de relevé la panne d’appareil de mesure le dosage impossible pour raisons liées au sujet coagulation du tube de sang avant dosage si dosage lié à un trouble de la coagulation : MNAR si dosage autre : MCAR dossier médical incomplet N. MEYER Données manquantes Introduction Définitions Les méthodes d’analyse Conclusion Classification méthodologique des DM Impact des données manquantes Effet des manquants Classification de Little et Rubin Quelques exemples les aidants des personnes âgées dépendantes, pour savoir si la personne aidée représente une charge, la présence d’une réponse dépend de la valeur de la réponse consommation d’alcool est souvent d’autant plus minimisée que cette consommation est forte dans les dossiers médicaux, la probabilité qu’un symptome négatif soit noté est plus faible que la probabilité qu’un symptôme positif soit noté. N. MEYER Données manquantes Introduction Définitions Les méthodes d’analyse Conclusion Classification méthodologique des DM Impact des données manquantes Effet des manquants Classification de Little et Rubin Quelques exemples (2) Soit deux V.A. continues, une est sujette à non-réponse. La variable X complètement observée est l’âge et la variable Y incomplètement observée est le revenu Si la probabilité que le revenu soit manquant est indépendante de l’âge et du revenu du sujet, alors les données sont de type MCAR (OAR + MAR). Si la probabilité que le revenu soit manquant dépend de l’âge de la personne interrogée mais pas de son revenu, alors les DM sont manquantes aléatoirement (ne dépendent pas du revenu) mais elles ne sont pas observées aléatoirement (dépendent de l’âge) : elles sont donc de type MAR N. MEYER Données manquantes Introduction Définitions Les méthodes d’analyse Conclusion Classification méthodologique des DM Impact des données manquantes Effet des manquants Classification de Little et Rubin Quelques exemples (3) Si la probabilité que le revenu soit manquant dépend de l’âge de la personne et de son revenu, les DM ne sont pas manquantes aléatoirement (dépendent du revenu) et ne sont pas observées aléatoirement (dépendent de l’âge) : elles sont donc de type MNAR. N. MEYER Données manquantes Introduction Définitions Les méthodes d’analyse Conclusion Classification méthodologique des DM Impact des données manquantes Effet des manquants Classification de Little et Rubin Quelques exemples (4) un animal meurt au décours d’une expérience avant le recueil de y ex. application de goudron sur la peau d’un rat : test cutané du pouvoir cancérigène cause du décès ? mort naturelle ? passage transcutané de constituant du goudron ? et donc toxicité (cardiaque, autre) du goudron ? lien avec les analyses de survie N. MEYER Données manquantes Introduction Définitions Les méthodes d’analyse Conclusion Classification méthodologique des DM Impact des données manquantes Effet des manquants Classification de Little et Rubin Quelques exemples (5) Études longitudinales cas de la survie et de la censure le sujet quitte l’étude décès ? lié à l’étude ? étude longitudinale le sujet ne se présente pas à la visite vi , i < imax le sujet ne se présente pas aux visites vi et suivante décès ? lié à l’étude ? N. MEYER Données manquantes Introduction Définitions Les méthodes d’analyse Conclusion Classification méthodologique des DM Impact des données manquantes Effet des manquants Classification de Little et Rubin L’intérêt de cette classification Prendre en compte le mécanisme des manquants dans l’analyse Si on s’intéresse uniquement à la distribution marginale de X (l’âge), les données de Y et le mécanisme des manquants n’a aucune importance Si on souhaite avoir une estimation conditionnelle de la valeur de Y sachant X (par exemple la répartition des revenus en fonction de l’âge), alors l’analyse sur les n − m valeurs complètes est satisfaisante si les données sont MAR ou si elles sont MCAR Si on s’intéresse à la distribution marginale de Y (moyenne des revenus), alors une analyse basée sur les unités complètes est biaisée sauf si les données sont de type MCAR. N. MEYER Données manquantes Introduction Définitions Les méthodes d’analyse Conclusion Classification méthodologique des DM Impact des données manquantes Effet des manquants Classification de Little et Rubin Si données MNAR, les estimations portant sur la distribution marginale de Y et sur la distribution conditionnelle de Y sachant X sont biaisées et nécessitent une modélisation des valeurs manquantes Dans les autres cas, la modélisation n’est pas nécessaire même si des méthodes adaptées à l’analyse statistique en présence de DM doivent être utilisées. N. MEYER Données manquantes Introduction Définitions Les méthodes d’analyse Conclusion Classification méthodologique des DM Impact des données manquantes Effet des manquants Classification de Little et Rubin reprendre les exemples sur l’impact des manquants dans R. N. MEYER Données manquantes Introduction Définitions Les méthodes d’analyse Conclusion Classification méthodologique des DM Impact des données manquantes Effet des manquants Classification de Little et Rubin Commentaires Le problème principal est que lorsque l’on a des données incomplètes, il est très difficile de savoir quelle est la vraie distribution des données et donc de savoir quel est le mécanisme des manquants ou au moins lequel est le plus probable ! Il y a une part d’avis subjectif dans le choix mais ce peut-être un avis éclairé ! N. MEYER Données manquantes Introduction Définitions Les méthodes d’analyse Conclusion Classification méthodologique des DM Impact des données manquantes Effet des manquants Classification de Little et Rubin Pertinence de cette classification Permet de prendre en compte le mécanisme des manquants lors de l’analyse Si on l’intéresse à la distribution marginale des revenus, les résultats sont biaisés sauf si les données sont MCAR Si l’on s’intéresse à la distribution conditionnelle du revenu en fonction de l’âge, c.-à-d. pour des classes d’âges données, une analyse basée sur les unités statistiques complètes est satisfaisante si les DM sont MAR Si les DM sont MNAR, les estimations basées sur la distribution marginale du revenu ou sur la distribution conditionnelle du revenu selon l’âge sont biaisées et nécessite une modèlisation explicite des MD. N. MEYER Données manquantes Introduction Définitions Les méthodes d’analyse Conclusion Classification méthodologique des DM Impact des données manquantes Effet des manquants Classification de Little et Rubin DM et données longitudinales Dans le cas de données longitudinales (rappel), la classification est modifiée (voir Schafer). MCAR le mécanisme ne dépend ni des covariables xi ni de Y Pr(ri |xi ; yi ; φ) = Pr(ri |φ) CD Covariate-dependent (CD) missingness : le mécanisme peut dépendre de xi mais pas de Y : Pr(ri |xi ; yi ; φ) = Pr(ri |xi ; φ) MAR le mécanisme peut dépendre des cov. xi et des Y observés : Pr(ri |xi ; yi ; φ) = Pr(ri |xi ; yi(obs) ; φ) MNAR tous les autres cas : le mécanisme dépend encore de ymqt même après prise en compte des xi , et des yobs . N. MEYER Données manquantes Introduction Définitions Les méthodes d’analyse Conclusion Classification méthodologique des DM Impact des données manquantes Effet des manquants Classification de Little et Rubin DM et données longitudinales En cas de sortie d’étude (avant fin de suivi), signification : MCAR la Pr. de sortie ne dépend pas des caractéristiques du sujets CD la Pr. de sortie peut être liée à des covariables mais pas à la mesure d’intérêt MAR la Pr. de sortie peut être liée à des covariables et la valeur de la mesure d’intérêt avant la sortie d’étude MNAR la Pr. de sortie peut être liée à la mesure d’intérêt au moment de la sortie et parfois à la mesure après la sortie de l’étude : cas souvent crédible N. MEYER Données manquantes Introduction Définitions Les méthodes d’analyse Conclusion Classification méthodologique des DM Impact des données manquantes Effet des manquants Classification de Little et Rubin DM et données longitudinales Que peut-on dire des données ? comme on observe xi , ri et yobs on peut souvent rejeter MCAR et CD on ne peut pas rejeter MAR en faveur de MNAR car on n’observe pas ymqt tester MAR suppose des hypothèses invérifiables N. MEYER Données manquantes Introduction Définitions Les méthodes d’analyse Conclusion Classification méthodologique des DM Impact des données manquantes Effet des manquants Classification de Little et Rubin DM et données longitudinales les données ne sont pas MCAR car sorties différentes dans TMT et contrôle pas seulement CD car complets et sortie ont des trajectoires différentes MAR ou MNAR, on ne peut pas savoir N. MEYER Données manquantes Introduction Définitions Les méthodes d’analyse Conclusion Classification méthodologique des DM Impact des données manquantes Effet des manquants Classification de Little et Rubin L’(( ignorabilité )) des données Les données sont (( ignorables )) si : 1 les données sont MAR 2 les paramètres grouvernant le mécanisme des manquants ne sont pas reliés aux paramètres que l’on veut estimer Cela signifie que : pas nécessaire de modèliser le mécanisme des manquants comme une part de l’estimation des paramètres mais nécessite quand même des méthodes particulières en pratique, toujours : ignorable (condition (2) ci-dessus toujours remplie) N. MEYER Données manquantes Introduction Définitions Les méthodes d’analyse Conclusion Classification méthodologique des DM Impact des données manquantes Effet des manquants Classification de Little et Rubin L’(( ignorabilité )) des données Les données sont (( non-ignorables )) si les données ne sont pas MAR. implique de modéliser le mécanisme des manquants pour avoir une bonne estimation des paramètres implique des hypothèses fortes et non vérifiables sur le mécanisme donc d’applicabilité limitée car résultats très dépendants des hypothèses sur les manquants et implique un modèle pour chaque cas particulier donc, bien qu’évident, très peu utilisé nous ne verrons que le cas ignorable N. MEYER Données manquantes Introduction Définitions Les méthodes d’analyse Conclusion Classification méthodologique des DM Impact des données manquantes Effet des manquants Classification de Little et Rubin Un cas particulier le (( missing plot )) dans un plan factoriel issu de l’agronomie, quand un plot est un manquant méthodes à part dédiées à ce problème N. MEYER Données manquantes Introduction Définitions Les méthodes d’analyse Conclusion Classification méthodologique des DM Impact des données manquantes Effet des manquants Classification de Little et Rubin Les données monotones Une répartition de données manquantes est dit monotone si : les variables peuvent être arrangées d’une manière telle que pour chaque observation de l’échantillon, si Xj est manquant, alors Xj +j 0 est aussi manquant, avec j 0 entier positif et j + j0 ≤ p donc si pour un sujet i , les données sont manquantes à partir d’une certaine variable qui peut changer d’un sujet à l’autre fréquent dans les données longitudinales (abandont du sujet à partir d’une date donnée) si une seule variable, forcément monotone N. MEYER Données manquantes Introduction Définitions Les méthodes d’analyse Conclusion --> --> --> --> --> --> 1 2 3 1 2 3 A A B A A B 2 3 4 2 3 4 8 4 7 8 4 7 9 9 6 9 4 6 8 1 3 * * * 8 2 * * * * Classification méthodologique des DM Impact des données manquantes Effet des manquants Classification de Little et Rubin 7 * * * * * N. MEYER Données manquantes Introduction Définitions Les méthodes d’analyse Conclusion Classification méthodologique des DM Impact des données manquantes Effet des manquants Classification de Little et Rubin Deux autres types de répartition Une répartition de données manquantes peut prendre d’autres formes : une répartition quelconque une répartition très structurée parfois volontaire ou résultant de l’histoire des données comme dans la fusion de données : deux (( demi-sondages )) ou sondages à deux époques différentes un cas très particulier : les variables latentes ou toutes les valeurs d’une variables sont à retrouver, comme en analyse factorielle N. MEYER Données manquantes Introduction Définitions Les méthodes d’analyse Conclusion --> --> --> --> --> --> 1 2 3 1 2 3 A A B A A B 2 3 * 2 * 4 8 * 7 8 * 7 9 9 6 9 4 6 8 1 3 * 8 * 8 2 9 3 2 1 Classification méthodologique des DM Impact des données manquantes Effet des manquants Classification de Little et Rubin 7 7 * * * 6 Il s’agit ici d’une répartition arbitraire N. MEYER Données manquantes Introduction Définitions Les méthodes d’analyse Conclusion --> --> --> --> --> --> 1 2 3 1 2 3 A A B A A B 2 3 4 2 3 4 8 4 7 8 4 7 9 9 6 9 4 6 Classification méthodologique des DM Impact des données manquantes Effet des manquants Classification de Little et Rubin * * * * * * Il s’agit ici d’une variable latente N. MEYER Données manquantes Introduction Définitions Les méthodes d’analyse Conclusion Classification méthodologique des DM Impact des données manquantes Effet des manquants Classification de Little et Rubin Le data fusion Le data fusion (et le data matching, impliqué par le DF) : l’ensemble des données sur un sujets ne sont pas forcément dans une seule base de données Def˚ : Combinaison de données, provenant de sources différentes, pour obtenir un seul jeu de données dans lequel toutes les variables sont renseignées (présence obligatoire de variables communes) fusionne des variables provenant d’un dataset avec des variables d’un second dataset, en appariant les observations par paires à partir de variables communes appelées (( variables d’appariement )) ((( match variables ))). N. MEYER Données manquantes Introduction Définitions Les méthodes d’analyse Conclusion Classification méthodologique des DM Impact des données manquantes Effet des manquants Classification de Little et Rubin Le data fusion Le data fusion (suite) : Il n’est pas nécessaire que les observations soient identiques dans les deux datasets, c.-à-d. que toutes les observations dans un dataset ne doivent pas forcément figurer dans l’autre. par appariement d’individu (plus proche voisin) ou par prédiction de variables N. MEYER Données manquantes Introduction Définitions Les méthodes d’analyse Conclusion --> --> --> --> --> --> 1 2 3 1 2 3 A A B A A B 2 3 4 2 3 4 8 4 7 8 4 7 9 9 6 9 4 6 8 1 3 * * * 8 2 9 * * * * * * 2 3 6 Classification méthodologique des DM Impact des données manquantes Effet des manquants Classification de Little et Rubin * * * 1 5 9 Il s’agit ici de fusionner les données en remplacant les données manquantes. N. MEYER Données manquantes Introduction Définitions Les méthodes d’analyse Conclusion La description des données Après la description, l’analyse Les méthodes sans modélisation Imputation simple L’algorithme EM Imputation Multiple Que faire en présence de DM ? Avant tout, il faut décrire les données, c.-à-d. les données manquantes et les données non manquantes Combien de DM ? Combien de DM par variable ? Ou sont les DM ? Certaines variables seulement ? Toutes les variables ? certains sujets seulement ? Tous les sujets ? Calculer le nombre et la proportion de données manquantes (la plupart des logiciels le font automatiquement) Decrire graphiquement les données et les données manquantes N. MEYER Données manquantes Introduction Définitions Les méthodes d’analyse Conclusion La description des données Après la description, l’analyse Les méthodes sans modélisation Imputation simple L’algorithme EM Imputation Multiple typetrav Dénom. DénCum 1 448 448 2 60 508 3 197 705 N= 705 *= 94 % % Cum 63.55 63.55 8.51 72.06 27.94 100.00 déclench Dénom. DénCum 0 645 645 1 60 705 N= 705 *= 94 % % Cum 91.49 91.49 8.51 100.00 N. MEYER Données manquantes R827 R813 L797 L811 L786 L773 L758 L686 R681 L673 L651 R638 L636 L592 R590 L584 L551 L543 R487 L477 L451 R450 L448 L410 R381 L358 L352 R349 L346 L333 R323 R221 L204 R198 L186 L138 L599 La description des données Après la description, l’analyse Les méthodes sans modélisation Imputation simple L’algorithme EM Imputation Multiple Introduction Définitions Les méthodes d’analyse Conclusion D9S171 D9S171 N. MEYER Données manquantes R827 R813 L797 L811 L786 L773 L758 Norm. D2S138 L686 D18S61 R681 D16S422 D2S138 L673 D17S794 D18S61 L651 D6S264 D16S422 R638 D14S65 D17S794 L636 D18S53 D6S264 L599 D17S790 D14S65 L592 D1S225 D18S53 R590 D3S1282 D17S790 L584 D9S179 D1S225 L551 D5S430 D3S1282 L543 D8S283 D9S179 R487 D11S916 D5S430 L477 D2S159 D8S283 L451 D16S408 D11S916 R450 D5S346 D2S159 L448 D10S191 D16S408 L410 D13S173 D5S346 R381 D6S275 D10S191 L358 D15S127 D13S173 L352 D1S305 D6S275 R349 D4S394 D15S127 L346 D20S107 D1S305 L333 D1S197 D4S394 R323 D1S207 D20S107 R221 D10S192 D1S197 L204 D3S1283 D1S207 L186 D4S414 D10S192 L138 D8S264 D3S1283 R198 D22S928 D4S414 AI TP53 D8S264 manquants TP53 D22S928 R827 R813 L797 L811 L786 L773 L758 L686 R681 L673 L651 R638 L636 L592 R590 L584 L551 L543 R487 L477 L451 R450 L448 L410 R381 L358 L352 R349 L346 L333 R323 R221 L204 R198 L186 L138 L599 La description des données Après la description, l’analyse Les méthodes sans modélisation Imputation simple L’algorithme EM Imputation Multiple Introduction Définitions Les méthodes d’analyse Conclusion D9S171 D9S171 N. MEYER Données manquantes R827 R813 L797 L811 L786 L773 L758 D2S138 L686 D18S61 R681 D16S422 D2S138 L673 D17S794 D18S61 L651 D6S264 D16S422 R638 D14S65 D17S794 L636 D18S53 D6S264 L599 D17S790 D14S65 L592 D1S225 D18S53 R590 D3S1282 D17S790 L584 D9S179 D1S225 L551 D5S430 D3S1282 L543 D8S283 D9S179 R487 D11S916 D5S430 L477 D2S159 D8S283 L451 D16S408 D11S916 R450 D5S346 D2S159 L448 D10S191 D16S408 L410 D13S173 D5S346 R381 D6S275 D10S191 L358 D15S127 D13S173 L352 D1S305 D6S275 R349 D4S394 D15S127 L346 D20S107 D1S305 L333 D1S197 D4S394 R323 D1S207 D20S107 R221 D10S192 D1S197 L204 D3S1283 D1S207 L186 D4S414 D10S192 L138 D8S264 D3S1283 R198 D22S928 D4S414 Présents TP53 D8S264 Manquants TP53 D22S928 La description des données Après la description, l’analyse Les méthodes sans modélisation Imputation simple L’algorithme EM Imputation Multiple Introduction Définitions Les méthodes d’analyse Conclusion Données manquantes GR GB TAT Ddim PF4 Gly NumPlq N. MEYER TG CLDL CHDL CT Jeun tab BMI Taille Poids Sexe Age Manquants 300 299 298 297 296 295 294 293 292 291 290 289 288 287 286 285 284 283 282 281 280 279 278 277 276 275 274 273 272 271 270 269 268 267 266 265 264 263 262 261 260 259 258 257 256 255 254 253 252 251 250 249 248 247 246 245 244 243 242 241 240 239 238 237 236 235 234 233 232 231 230 229 228 227 226 225 224 223 222 221 220 219 218 217 216 215 214 213 212 211 210 209 208 207 206 205 204 203 202 201 200 199 198 197 196 195 194 193 192 191 190 189 188 187 186 185 184 183 182 181 180 179 178 177 176 175 174 173 172 171 170 169 168 167 166 165 164 163 162 161 160 159 158 157 156 155 154 153 152 151 150 149 148 147 146 145 144 143 142 141 140 139 138 137 136 135 134 133 132 131 130 129 128 127 126 125 124 123 122 121 120 119 118 117 116 115 114 113 112 111 110 109 108 107 106 105 104 103 102 101 100 99 98 97 96 95 94 93 92 91 90 89 88 87 86 85 84 83 82 81 80 79 78 77 76 75 74 73 72 71 70 69 68 67 66 65 64 63 62 61 60 59 58 57 56 55 54 53 52 51 50 49 48 47 46 45 44 43 42 41 40 39 38 37 36 35 34 33 32 31 30 29 28 27 26 25 24 23 22 21 20 19 18 17 16 15 14 13 12 11 10 9 8 7 6 5 4 3 2 1 GPV 300 299 298 297 296 295 294 293 292 291 290 289 288 287 286 285 284 283 282 281 280 279 278 277 276 275 274 273 272 271 270 269 268 267 266 265 264 263 262 261 260 259 258 257 256 255 254 253 252 251 250 249 248 247 246 245 244 243 242 241 240 239 238 237 236 235 234 233 232 231 230 229 228 227 226 225 224 223 222 221 220 219 218 217 216 215 214 213 212 211 210 209 208 207 206 205 204 203 202 201 200 199 198 197 196 195 194 193 192 191 190 189 188 187 186 185 184 183 182 181 180 179 178 177 176 175 174 173 172 171 170 169 168 167 166 165 164 163 162 161 160 159 158 157 156 155 154 153 152 151 150 149 148 147 146 145 144 143 142 141 140 139 138 137 136 135 134 133 132 131 130 129 128 127 126 125 124 123 122 121 120 119 118 117 116 115 114 113 112 111 110 109 108 107 106 105 104 103 102 101 100 99 98 97 96 95 94 93 92 91 90 89 88 87 86 85 84 83 82 81 80 79 78 77 76 75 74 73 72 71 70 69 68 67 66 65 64 63 62 61 60 59 58 57 56 55 54 53 52 51 50 49 48 47 46 45 44 43 42 41 40 39 38 37 36 35 34 33 32 31 30 29 28 27 26 25 24 23 22 21 20 19 18 17 16 15 14 13 12 11 10 9 8 7 6 5 4 3 2 1 Présents GR GB NumPlq TAT Ddim PF4 Gly TG CLDL CHDL CT Jeun tab BMI Taille Poids Sexe Age GPV Data missing by block (intended or not) Introduction Définitions Les méthodes d’analyse Conclusion La description des données Après la description, l’analyse Les méthodes sans modélisation Imputation simple L’algorithme EM Imputation Multiple Determination du mécanisme des manquants Le caractère manquant d’une donnée peut-être étudié D devient Y faire un modèle pour étudier les causes des manquants facile à faire problème circulaire : en général, DM sur plusieurs variables (donc X incomplets) difficile à interpréter N. MEYER Données manquantes Introduction Définitions Les méthodes d’analyse Conclusion La description des données Après la description, l’analyse Les méthodes sans modélisation Imputation simple L’algorithme EM Imputation Multiple Que faire après la description La plupart des logiciels décident tout seul ce qu’il faut faire avec les données manquantes Les logiciels courants utilisent des méthodes de mauvaises qualités (SPSS notamment) ou rien (MINITAB) Rares sont les logiciels qui permettent une analyse correcte : S+/R, SAS et WinBUGS N. MEYER Données manquantes Introduction Définitions Les méthodes d’analyse Conclusion La description des données Après la description, l’analyse Les méthodes sans modélisation Imputation simple L’algorithme EM Imputation Multiple méthode du cas complet X deux V.A. X1 et X2 , n-échantillon. m1 et m2 valeurs mqt. sur X1 et X2 . Le nombre m de sujets ayant au moins une donnée manquante max (m1 , m2 ) ≤ m ≤ m1 + m2 Le nombre nc de sujets complets est égale à n − m. Donc en général nc < nombre de sujets complets pour X1 ou pour X2 et : la plupart du temps on perd plus de valeurs que le nombre réel de valeurs manquantes N. MEYER Données manquantes Introduction Définitions Les méthodes d’analyse Conclusion --> --> --> 1 2 3 A 3 4 * 56 H 1 A 2 8 9 47 F 1 B 4 7 6 55 F 0 --> --> --> 1 2 3 * * * * * * * A 2 8 9 47 F 1 B 4 7 6 55 F 0 2 3 A 2 8 9 47 F 1 B 4 7 6 55 F 0 --> --> N. MEYER La description des données Après la description, l’analyse Les méthodes sans modélisation Imputation simple L’algorithme EM Imputation Multiple Données manquantes Introduction Définitions Les méthodes d’analyse Conclusion La description des données Après la description, l’analyse Les méthodes sans modélisation Imputation simple L’algorithme EM Imputation Multiple Méthode du cas complet : avantages facilite les comparaisons entre analyses uni- et multivariées mais seulement si on retire les mêmes sujets d’une analyse à l’autre pas-à-pas ascendants : le logiciel retire d’emblée les sujets incomplets sur toutes les variables candidates même si in fine toutes ne sont pas retenues dans le modèle N. MEYER Données manquantes Introduction Définitions Les méthodes d’analyse Conclusion La description des données Après la description, l’analyse Les méthodes sans modélisation Imputation simple L’algorithme EM Imputation Multiple Méthode du cas complet : inconvénients biais évident sauf si MCAR perte de puissance perte de cas rapidement considérable si 10 variables avec 10% de manquants (sur des sujets différents) 0, 910 cas complets = 34,8% N. MEYER Données manquantes Introduction Définitions Les méthodes d’analyse Conclusion La description des données Après la description, l’analyse Les méthodes sans modélisation Imputation simple L’algorithme EM Imputation Multiple Méthode du cas disponible on utilise pour chaque sous-analyse ou chaque sous-partie de l’analyse l’ensemble des cas complets avantage : nb max de sujets à chaque analyse / chaque partie inconvénients : nb variables d’une analyse / partie à l’autre Y = α1 + βX1 et Y = α1 + βX2 portent sur des sujets différents ACP : matrice de covariance mal conformée pas-à-pas : certains logiciels excluent les sujets incomplets à chaque étape et pas d’emblée N. MEYER Données manquantes Introduction Définitions Les méthodes d’analyse Conclusion La description des données Après la description, l’analyse Les méthodes sans modélisation Imputation simple L’algorithme EM Imputation Multiple Ajustement sur dummy variable Une méthode simple et intuitive proposée par Cohen en 1985. soit un modèle de régression Y = f (X ) soit une V.A. X explicative incomplète on crée une V. indicatrice D, D = 1 si X manquant, D = 0 sinon autre solution on crée une V. indicatrice D ∗ , D ∗ = c si X manquant, D ∗ = X sinon ou c est une constante quelconque le coefficient de X est invariant à c N. MEYER Données manquantes Introduction Définitions Les méthodes d’analyse Conclusion La description des données Après la description, l’analyse Les méthodes sans modélisation Imputation simple L’algorithme EM Imputation Multiple Ajustement sur dummy variable ce qui change selon c, c’est le coefficient de D ∗ pour faciliter l’interprétation : c = m(X = Xobs ) alors : βD = valeur prédite de Y pour les sujets incomplets moins la valeur prédite de Y pour les individus à la moyenne de X mais la méthode est biaisée et donc les estimations ne sont pas valides N. MEYER Données manquantes Introduction Définitions Les méthodes d’analyse Conclusion La description des données Après la description, l’analyse Les méthodes sans modélisation Imputation simple L’algorithme EM Imputation Multiple Ajustement sur dummy variable Cependant : la méthode permet d’utiliser tous les sujets disponibles y compris ceux qui sont incomplets donc on évite la perte de puissance : meilleure précision des estimateurs (et donc choisir entre biais et précision) on peut également tester des interactions entre D ou D ∗ et Xj pour détecter un mécanisme particulier pour les manquants N. MEYER Données manquantes Introduction Définitions Les méthodes d’analyse Conclusion La description des données Après la description, l’analyse Les méthodes sans modélisation Imputation simple L’algorithme EM Imputation Multiple Les méthodes d’imputation méthodes très nombreuses consiste à substituer à la valeur manquante une valeur choisie de manière (( pertinente )). méthodes (( séduisantes et dangereuses )) (Rubin) Deux grands types : 1 2 imputation simple imputation multiple N. MEYER Données manquantes Introduction Définitions Les méthodes d’analyse Conclusion La description des données Après la description, l’analyse Les méthodes sans modélisation Imputation simple L’algorithme EM Imputation Multiple Les méthodes d’imputation simple (... et mauvaises) LOCF : Last Observation Caried Forward ajouter une catégorie pour les DM moyenne non conditionnelle moyenne conditionnelle (Buck) (par bloc ou pas) imputation + aléa simples mais inconvénients +++ / overfitting /ad hoc estimations d’IC très difficiles N. MEYER Données manquantes Introduction Définitions Les méthodes d’analyse Conclusion La description des données Après la description, l’analyse Les méthodes sans modélisation Imputation simple L’algorithme EM Imputation Multiple Ajout d’une catégorie pour les DM Soit X une variable aléatoire catégorielle et incomplète On crée une catégorie suplémentaire désignant la DM On fait le modèle avec cette variable multinomiale interprétation ? Délicate ! Bais + + et augmente le nb de ddl Difficile à utiliser pour des variables ordinales ou continues N. MEYER Données manquantes Introduction Définitions Les méthodes d’analyse Conclusion La description des données Après la description, l’analyse Les méthodes sans modélisation Imputation simple L’algorithme EM Imputation Multiple Last Observation Carried Forward : LOCF (1) très prisée dans l’industrie pharmaceutique consiste à remplacer une valeur manquante par la valeur qui la précède dans le fichier ( !) très facile à réaliser aucune justification théorique suppose que le fichier n’est pas trié et donc les sujets ont un ordre aléatoire indépendant du mécanisme des manquants N. MEYER Données manquantes Introduction Définitions Les méthodes d’analyse Conclusion La description des données Après la description, l’analyse Les méthodes sans modélisation Imputation simple L’algorithme EM Imputation Multiple Première variante : d’un sujet à l’autre --> --> --> 1 2 3 A 2 8 A 3 4 B 4 7 9 * 6 47 F 1 56 H 1 55 F 0 --> --> --> 1 2 3 A 2 8 9 47 F 1 A 3 4 |9| 56 H 1 B 4 7 6 55 F 0 N. MEYER Données manquantes Introduction Définitions Les méthodes d’analyse Conclusion La description des données Après la description, l’analyse Les méthodes sans modélisation Imputation simple L’algorithme EM Imputation Multiple Seconde variante : d’un temps à l’autre pour un même sujet dans une étude longitudinale --> --> --> 1 2 3 A 2 8 A 3 4 B 4 7 9 * 6 --> --> --> 1 2 3 A 2 8 9 A 3 4 |4| B 4 7 6 N. MEYER Données manquantes Introduction Définitions Les méthodes d’analyse Conclusion La description des données Après la description, l’analyse Les méthodes sans modélisation Imputation simple L’algorithme EM Imputation Multiple Last Observation Carried Forward : LOCF (1) connait des variantes intéressantes par exemple pour des données continues on prend la valeur précédente plus un aléa suivant une loi pertinente peut s’envisager avec des raffinements dans de l’imputation multiples à ne jamais utiliser sinon N. MEYER Données manquantes Introduction Définitions Les méthodes d’analyse Conclusion La description des données Après la description, l’analyse Les méthodes sans modélisation Imputation simple L’algorithme EM Imputation Multiple Les méthodes dans les enquêtes Quelques méthodes classiques : cold deck : source exterieur, limites + + + substitution : tirage au sort d’une nouvelle unité difficile si stratification a posteriori N. MEYER Données manquantes Introduction Définitions Les méthodes d’analyse Conclusion La description des données Après la description, l’analyse Les méthodes sans modélisation Imputation simple L’algorithme EM Imputation Multiple Les méthodes dans les enquêtes Une méthodes à part : le hot deck on remplace la valeur manquante par une valeur prise chez un sujet similaire sur un certain nombre de variables difficile en partique car impose une mesure de distance qui est délicate à définir biais et impact sur la puissance des analyses car diminution des variances N. MEYER Données manquantes Introduction Définitions Les méthodes d’analyse Conclusion La description des données Après la description, l’analyse Les méthodes sans modélisation Imputation simple L’algorithme EM Imputation Multiple Le (( worst case )) et ses variantes (1) Une méthode facile à utiliser pour des variables catégorielles : imputer les valeurs qui défavorisent (cliniquement) le résultat attendu soit à estimer une proportion p sur N sujets dont n sont manquants on peut attribuer l’une des modalités (VIH+) à tous les n manquants et estimer p exemple : VIH au Kenya : N = 787, n = 36, r+ = 52 on obtient par le (( worst case )) : p = 88/787 on peut faire un intervalle (( worst case - best case )) (ou le contraire selon contexte) qui sert de point de départ à la modélisation N. MEYER Données manquantes Introduction Définitions Les méthodes d’analyse Conclusion La description des données Après la description, l’analyse Les méthodes sans modélisation Imputation simple L’algorithme EM Imputation Multiple Le (( worst case )) et ses variantes (2) Variantes dans les essais thérapeutiques on veut comparer l’effet de deux traitements sur un résultat clinique souvent la mesure d’intérêt est absente (décès, guérison car perdu de vue ou autre) l’estimation de l’effet du traitement est biaisé par les DM on se met dans une situation défavorable au nouveau TMT si la différence existe quand même, on peut valider le nouveau traitement N. MEYER Données manquantes Introduction Définitions Les méthodes d’analyse Conclusion La description des données Après la description, l’analyse Les méthodes sans modélisation Imputation simple L’algorithme EM Imputation Multiple 20 40 60 80 100 All allocated to good Extreme favouring A 0 Angioplasty: % of missing allocated to good outcome (n=30) Etude de sensibilité : Shadish All allocated to poor 0 20 Extreme favouring S 40 60 80 100 Stent: % of missing allocated to good outcome (n=24) Significant difference (p<0.05) No significant difference (p>0.05) N. MEYER Données manquantes Introduction Définitions Les méthodes d’analyse Conclusion La description des données Après la description, l’analyse Les méthodes sans modélisation Imputation simple L’algorithme EM Imputation Multiple Méthode de Delucchi Pour des données qualitatives : table 2 × 2 si on a m valeurs manquantes dans l’une des deux variables on peut imputer les valeurs marginales de m + 1 manières puis dans chaque cellules à partir de la marge (m1. + 1) × (m2. + 1) possibilités pour chacune des m + 1 combinaisons marginales à partir desquelles on conclut N. MEYER Données manquantes Introduction Définitions Les méthodes d’analyse Conclusion La description des données Après la description, l’analyse Les méthodes sans modélisation Imputation simple L’algorithme EM Imputation Multiple Solutions à part littérature + + + ad hoc + + + algorithme NIPALS : voir modèles PLS qui suppose quand même des hypothèses fortes sur les DM ! ne pas avoir de DM ! ! N. MEYER Données manquantes Introduction Définitions Les méthodes d’analyse Conclusion La description des données Après la description, l’analyse Les méthodes sans modélisation Imputation simple L’algorithme EM Imputation Multiple L’algorithme EM Principe (très général) : Interdépendance entre paramétres θ et Ymqt Ymqt contient de l’information utile pour estimer θ et θ permet d’obtenir des valeurs pertinentes pour Ymqt On remplit les manquants à partir d’une estimation de θ puis on ré-estime θ à partir de Yobs et Ymqt et on répéte jusqu’à convergence N. MEYER Données manquantes Introduction Définitions Les méthodes d’analyse Conclusion La description des données Après la description, l’analyse Les méthodes sans modélisation Imputation simple L’algorithme EM Imputation Multiple L’algorithme EM Les données complètes (i.e. obs + mqt) peuvent être mise sous la forme suivante : Pr (Y |θ) = Pr (Yobs |θ)Pr (Ymqt |Yobs , θ) d’où : L(θ|Y ) = L(θ|Yobs ) + log Pr (Ymqt |Yobs , θ) + c avec : L(θ|Y ) = log Pr (Y |θ) vraisemblance des données complètes et : L(θ|Yobs ) = log Pr (Yobs |θ) vraisemblance des données observées Pr (Ymqt |Yobs , θ) : distrib. prédictive des DM sachant θ fait le lien entre θ et les DM N. MEYER Données manquantes Introduction Définitions Les méthodes d’analyse Conclusion La description des données Après la description, l’analyse Les méthodes sans modélisation Imputation simple L’algorithme EM Imputation Multiple L’algorithme EM Soit θ(t) l’estimation courante de θ. Les estimations se font ensuite en deux étapes : E Expectation étape qui donne la log-vraisemblance R Q(θ|θ(t) ) = L(θ|Y )Pr (Ymqt |Yobs , θ = θ(t) )dYmqt M Maximization étape qui détermine θ(t+1) en maximisant cette log-vraisemblance Q(θ(t+1) |θ(t) ) ≥ Q(θ|θ(t) ) N. MEYER Données manquantes Introduction Définitions Les méthodes d’analyse Conclusion La description des données Après la description, l’analyse Les méthodes sans modélisation Imputation simple L’algorithme EM Imputation Multiple L’algorithme EM Un résultat de Dempster, Laird et Rubin (1977) montre que : si θ(t+1) est la valeur de θ qui maximise Q(θ|θ(t) ) alors θ(t+1) est une meilleure estimation que θ(t) car la vraisemblance des données observées pour θ(t+1) est au moins aussi grande que celle pour θ(t) L(θ(t+1) |Yobs ) ≥ L(θ(t) |Yobs ) N. MEYER Données manquantes Introduction Définitions Les méthodes d’analyse Conclusion La description des données Après la description, l’analyse Les méthodes sans modélisation Imputation simple L’algorithme EM Imputation Multiple L’algorithme EM : exemple Illustré sur une table 2 × 2 on suppose deux variables Y1 et Y2 , variables dichotomiques toutes les deux incomplètes le tableau croisé des deux variables : distribution multinomiale x = {x11 , x12 , x21 , x22 } de paramètres : θ = {θ11 , θ12 , θ21 , θ22 } avec θij proba qu’un sujet ait Y1 = i et Y2 = j alors la vraisemblance s’écrit : L(θ|x ) = x11 logθ11 + x12 logθ12 + x21 logθ21 + x22 logθ22 les MLE obtenus par : xij = nθij N. MEYER Données manquantes Introduction Définitions Les méthodes d’analyse Conclusion La description des données Après la description, l’analyse Les méthodes sans modélisation Imputation simple L’algorithme EM Imputation Multiple L’algorithme EM : exemple Soit la table suivante : sujet Y2 = 1 Y2 = 2 Y2 = mqt Y1 = 1 Y1 = 2 A x11 A x21 A x12 A x22 B x1+ B x2+ Y1 = mqt C x+1 C x+2 N. MEYER Données manquantes Introduction Définitions Les méthodes d’analyse Conclusion La description des données Après la description, l’analyse Les méthodes sans modélisation Imputation simple L’algorithme EM Imputation Multiple L’algorithme EM : exemple Les deux étapes de l’algorithme : étape E remplace les valeurs inconnues xijB et xijC par leur espérance conditionnelles E (xij |Yobs , θ) = E (xijA + xijB + xijC |Yobs , θ) B θ /θ C = xijA + xi+ ij i+ + x+j θij /θ+j étape M θij = E (xij |Yobs , θ)/n en combinant les deux étapes en une seule, on obtient : (t) (t) θij θij (t+1) −1 A B C θij =n xij + xi+ (t) + x+j (t) θi+ N. MEYER θ+j Données manquantes Introduction Définitions Les méthodes d’analyse Conclusion La description des données Après la description, l’analyse Les méthodes sans modélisation Imputation simple L’algorithme EM Imputation Multiple L’algorithme EM : exemple Soit la table suivante : sujet Non victimes t2 Victimes t2 Non-réponses Non victimes t1 Victimes t1 392 76 55 38 33 9 Non-réponses 31 7 N. MEYER Données manquantes Introduction Définitions Les méthodes d’analyse Conclusion La description des données Après la description, l’analyse Les méthodes sans modélisation Imputation simple L’algorithme EM Imputation Multiple L’algorithme EM : exemple Itérations de l’EM : (t) (t) (t) (t) t θ11 θ12 θ21 θ22 0 1 ... 4 5 0,2500 0,6615 ... 0,6971 0,6971 0,2500 0,1170 ... 0,0987 0,0987 0,2500 0,1498 ... 0,1358 0,1358 0,2500 0,0718 ... 0,0684 0,0685 ∞ 0,6971 0,0987 0,1358 0,0685 N. MEYER Données manquantes Introduction Définitions Les méthodes d’analyse Conclusion La description des données Après la description, l’analyse Les méthodes sans modélisation Imputation simple L’algorithme EM Imputation Multiple L’Imputation Multiple : la star ! Repris de JL Schafer : Single-imputation strategies designed to precisely predict the missing values tend to distort estimates of population quantities The goal of the missing-data procedure is to draw accurate inferences about population quantities (e.g. mean change over time), not to accurately predict the missing values With imputation, the best way to achieve that goal is to preserve all aspects of the data distribution (means, trends, within- and between-subject variation, etc.) Ad hoc imputation methods inevitably preserve some aspects but distort others N. MEYER Données manquantes Introduction Définitions Les méthodes d’analyse Conclusion La description des données Après la description, l’analyse Les méthodes sans modélisation Imputation simple L’algorithme EM Imputation Multiple L’Imputation Multiple : la star ! l’imputation simple est ... unique la donnée imputée est considéré comme une donnée observée ne tient pas compte de l’incertitude sup. liée aux manquants d’où l’idée de faire plusieurs imputations différentes on substitue plusieurs valeurs à chaque DM on analyse en tenant compte de cette multiplicité N. MEYER Données manquantes Introduction Définitions Les méthodes d’analyse Conclusion La description des données Après la description, l’analyse Les méthodes sans modélisation Imputation simple L’algorithme EM Imputation Multiple Les étapes d’une imputation multiple on analyse la matrice des données pour en déduire un modèle pour les DM on réalise entre M = 3 et 10 imputations pour obtenir 3 à 10 jeux de données complétés on calcule le paramètre d’intérêt pour chaque jeu on combine les M imputations pour avoir une inférence qui tienne compte de l’incertitude supplémentaire liée aux DM N. MEYER Données manquantes Introduction Définitions Les méthodes d’analyse Conclusion La description des données Après la description, l’analyse Les méthodes sans modélisation Imputation simple L’algorithme EM Imputation Multiple Formules pour l’IM M estimations ponctuelles pour le vecteur de paramètre θ Si gaussien, moyenne et écart-type : (t) ¯ Q̂ (t) = Q̂(Yobs , Ymiss ), t = 1, . . . , m et (t) Û (t) = Û (t) (Yobs , Ymiss ), t = 1, . . . , m On calcule ensuite : m 1 X (t) ¯ Q̂ = Q̂ m t=1 N. MEYER Données manquantes La description des données Après la description, l’analyse Les méthodes sans modélisation Imputation simple L’algorithme EM Imputation Multiple Introduction Définitions Les méthodes d’analyse Conclusion Formules pour l’IM (suite) La Var. globale a deux composantes : (1) variance intra-imputation Ū = m 1 X (t) U m t=1 (2) La variance inter-imputation vaut : m 1 X ¯ (t) B= (Q̂ − Q̄)2 m − 1 t=1 La variance totale vaut : T = Ū + (1 + m −1 )B N. MEYER Données manquantes Introduction Définitions Les méthodes d’analyse Conclusion La description des données Après la description, l’analyse Les méthodes sans modélisation Imputation simple L’algorithme EM Imputation Multiple Formules pour l’IM (suite) À partir de ces équations, on peut réaliser des tests : Q − Q̄ √ ; tν T2 avec : ν = (m − 1) 1 + Ū (1 + m −1 )B 2 → intervalles de confiances. Ces statistiques tiennent compte de l’incertitude suppl. liées aux DM. N. MEYER Données manquantes Introduction Définitions Les méthodes d’analyse Conclusion La description des données Après la description, l’analyse Les méthodes sans modélisation Imputation simple L’algorithme EM Imputation Multiple Un exemple simple Exemple : voir feuille Excel N. MEYER Données manquantes Introduction Définitions Les méthodes d’analyse Conclusion La description des données Après la description, l’analyse Les méthodes sans modélisation Imputation simple L’algorithme EM Imputation Multiple Obtention des imputations Pour faire de l’IM, il faut générer les valeurs simulées : à partir de la distribution a posteriori des valeurs de Ymqt on définit donc un modèle pour les manquants en analysant la matrice R et en simulant en général sous un modèle multinormal on tire m valeur de Pr(Ymqt |Yobs ) Z Pr(Ymqt |Yobs ) = Pr(Ymqt |Yobs , θ)Pr (θ|Yobs )d θ soit distribution prédictive de Ymqt sachant θ moyenné sur la distribution a posteriori de θ ce qui reflète l’incertitude sur Ymqt sachant les paramètres du modèle des données complètes. N. MEYER Données manquantes Introduction Définitions Les méthodes d’analyse Conclusion La description des données Après la description, l’analyse Les méthodes sans modélisation Imputation simple L’algorithme EM Imputation Multiple Obtention des imputations Autre méthode, sur des variables quantitatives (( approximate bayesian bootstrap )) : rég. logistique pour prédire si X est manquant ou pas calculer proba de manquer = propensity score on trie par prop. score puis quintiles dans chaque quintile, r cas complets et m mqt parmi les r complets, on tire avec remise un éch. aléatoire de taille r pour chaque mqt, on tire avec remise une valeur dans l’éch. précédent dernière étape répétée M fois puis combinaison des M paramètres N. MEYER Données manquantes Introduction Définitions Les méthodes d’analyse Conclusion La description des données Après la description, l’analyse Les méthodes sans modélisation Imputation simple L’algorithme EM Imputation Multiple L’IM : avantages souple + + donne des résultats valides robuste aux écarts de spécification du modèle M peut être faible : 3, 5, pas plus de 10. N. MEYER Données manquantes Introduction Définitions Les méthodes d’analyse Conclusion La description des données Après la description, l’analyse Les méthodes sans modélisation Imputation simple L’algorithme EM Imputation Multiple L’IM : inconvénients (limités) ⇒ le recours à des logiciels repose sur le modèle (mais les autres méthodes aussi) si les effectifs sont faibles → variantes particulières Par ailleurs aspects bayésiens → utiliser WinBUGS N. MEYER Données manquantes Introduction Définitions Les méthodes d’analyse Conclusion La description des données Après la description, l’analyse Les méthodes sans modélisation Imputation simple L’algorithme EM Imputation Multiple l’IM par MICE (1) MICE : Multiple Imputation Chained Equation également le nom d’un package R. récent : 2000 obtention des imputations par le chainage d’équation N. MEYER Données manquantes Introduction Définitions Les méthodes d’analyse Conclusion La description des données Après la description, l’analyse Les méthodes sans modélisation Imputation simple L’algorithme EM Imputation Multiple l’IM par MICE (2) Principe de la méthode : soit une matrice X de taile n × p, avec m valeurs manquantes, et j variables incomplètes on impute chaque valeur manquante des j variables incomplètes une fois à partir des données observées on prend une première variable dont on retire les valeurs imputées (donc on reprend la variable dans son état initial, incomplètes) on impute les valeurs manquantes à partir des autres variables complétées on passe à la variable suivante : on prédit les valeurs incomplètes à partir des autres on fait un tour complet sur l’ensemble des variables incomplètes N. MEYER Données M manquantes on procède à M tours pour obtenir jeux de données Introduction Définitions Les méthodes d’analyse Conclusion La description des données Après la description, l’analyse Les méthodes sans modélisation Imputation simple L’algorithme EM Imputation Multiple l’IM par MICE (3) Avantages et limites de la méthode facile à faire gère tous les types de données dans un même (( modèle )) plus facile à faire sur de très grand jeux de données que IM classique peu de fondements théoriques convergence non assurée mais empiriquement efficace N. MEYER Données manquantes Introduction Définitions Les méthodes d’analyse Conclusion La description des données Après la description, l’analyse Les méthodes sans modélisation Imputation simple L’algorithme EM Imputation Multiple Retour sur les MNAR Si les données sont MNAR : implique de modéliser le mécanisme des manquants pour avoir une bonne estimation des paramètres implique des hypothèses fortes et non vérifiables sur le mécanisme or souvent on peut raisonnablement suspecter MNAR on peut les modèliser mais complexe, au cas par cas et ne peuvent que difficilement être testé (dépend du contexte) donc pas de méthode générale possible type IM N. MEYER Données manquantes Introduction Définitions Les méthodes d’analyse Conclusion La description des données Après la description, l’analyse Les méthodes sans modélisation Imputation simple L’algorithme EM Imputation Multiple Une méthode à part : l’algorithme NIPALS Crée dans les années 1960 pour l’ACP a la particularité de pouvoir fournir les composantes de l’ACP si l’on travaille sur les données complète fournit un résultat si données incomplètes sans sans sans sans supprimer de sujets supprimer de variable estimer les données manquantes ! imputation ! peut être utilisé à l’envers pour estimer ou imputer les DM N. MEYER Données manquantes Introduction Définitions Les méthodes d’analyse Conclusion La description des données Après la description, l’analyse Les méthodes sans modélisation Imputation simple L’algorithme EM Imputation Multiple Une méthode à part : l’algorithme NIPALS Algorithme itératif, utilisable en régression soit y et X, centrée réduite on ajuste de manière itérative y = aXj + ε faisable sur données incomplètes puis construction de composantes normer le vecteur a1 : w1 = a1 /ka1 k. calculer la composante t1 = 1/(t w1 w1 )Xw1 . itération → h exprimer la composante th en termes de prédicteurs X : th = Xwh∗ . N. MEYER Données manquantes Introduction Définitions Les méthodes d’analyse Conclusion La description des données Après la description, l’analyse Les méthodes sans modélisation Imputation simple L’algorithme EM Imputation Multiple Une autre méthode à part : les modèles mixtes Créés pour analyser des données longitudinales ou multi-niveaux, répétées etc. permet de travailler sur des données incomplètes et avec des sujets n’ayant qu’une valeur sur j supprime quand même les sujets n’ayant que des données manquantes N. MEYER Données manquantes Introduction Définitions Les méthodes d’analyse Conclusion La description des données Après la description, l’analyse Les méthodes sans modélisation Imputation simple L’algorithme EM Imputation Multiple une autre question : Y ou X ? Les problèmes de DM se posent surtout lorsque X est incomplet Lorsque Y est incomplet → estimer Yi à partir du modèle Donc le problème est moins grave mais il existe quand même S’écrit naturellement dans WinBUGS (en fait il est inutile de l’écrire !) Problème sérieux dans le domaine médical ou le problème n’est pas que statistique ! N. MEYER Données manquantes Introduction Définitions Les méthodes d’analyse Conclusion La description des données Après la description, l’analyse Les méthodes sans modélisation Imputation simple L’algorithme EM Imputation Multiple La solution bayésienne Les données manquantes sont issues d’une distribution a priori souplesse + + + ⇒ faire des hypothèses sur les DM mais toute les méthodes en font similitudes avec les données aberrantes voir exemple de prog. Bugs N. MEYER Données manquantes Introduction Définitions Les méthodes d’analyse Conclusion La description des données Après la description, l’analyse Les méthodes sans modélisation Imputation simple L’algorithme EM Imputation Multiple Les logiciels MINITAB : rien pour les DM SPSS : module mais pas dans la base SAS : différentes fonctions + PROC MI S+ / R : CAT,MIX, NORM A part : SIMCA : cartographie des manquants / R WinBUGS N. MEYER Données manquantes Introduction Définitions Les méthodes d’analyse Conclusion La description des données Après la description, l’analyse Les méthodes sans modélisation Imputation simple L’algorithme EM Imputation Multiple Les packages de R on trouve dans R plusieurs package qui gèrent plus ou moins les données manquantes : mitools fait de l’IM mice imputation multivariée par équations en chaines mvnmle estimation du max. vrais. pour des données gaussiennes multivariées norm IM pour données continues par EM et data augmentation cat IM pour données catégorielles par EM, data augmentation et simulations de paramètre mix la même chose pour mélange de qualitatives et quantitative pan IM pour données longitudinales ameliaII pour les sondages, les séries chronologiques, N. MEYER Données manquantes Introduction Définitions Les méthodes d’analyse Conclusion La description des données Après la description, l’analyse Les méthodes sans modélisation Imputation simple L’algorithme EM Imputation Multiple Package Hmisc dans le package Hmisc : na.delete Row-wise Deletion na.action na.detail.response Detailed Response Variable Information na.keep Do-nothing na.action na.pattern Variable Clustering na.retain Summarize Data for Making Tables and Plots naclus Variable Clustering naplot Variable Clustering N. MEYER Données manquantes Introduction Définitions Les méthodes d’analyse Conclusion La description des données Après la description, l’analyse Les méthodes sans modélisation Imputation simple L’algorithme EM Imputation Multiple Le package Hmisc : suite aregImpute() Multiple Imputation using Additive Regression, Bootstrapping, and Predictive Mean Matching transcan() Transformations/Imputations using Canonical Variates arrayImpute Missing imputation for microarray data arrayMissPattern Exploratory analysis of Missing patterns for microarray data EMV Estimation of Missing Values for a Data Matrix mlmmm ML estimation under multivariate linear mixed models with missing values monomvn Estimation for multivariate normal data with monotone missingness NestedCohort Survival Analysis for Cohorts with Missing Covariate Information N. MEYER Données manquantes Introduction Définitions Les méthodes d’analyse Conclusion Conclusion DM : un vrai problème sans (( vraie )) solution (pratique) il faut toujours faire des hypothèses ou faire une étude de sensibilité qui ne conclut pas le mieux : IM encore mieux : bayésien encore encore mieux : ne pas avoir de DM N. MEYER Données manquantes Introduction Définitions Les méthodes d’analyse Conclusion Les ouvrages de références Little RJA, Rubin DB : Statistical analysis with missing data, 2nd edition. John Wiley & Sons, New York 2002. Edition récente : IM ++ Schafer JL. Analysis of Incomplete Multivariate Data Chapman & Hall CRC 1997. Allison PD. Missing Data Thousand Oaks, CA : Sage. 2002. N. MEYER Données manquantes