cours données manquantes

Les données manquantes en bio-statistique
Pr N. MEYER
Laboratoire de Biostatistique - Faculté de Médecine
Dép. Santé Publique CHU - STRASBOURG
Master Statistiques et Applications
—
10 mars 2011
N. MEYER
Données manquantes
Introduction
Définitions
Les méthodes d’analyse
Conclusion
Importance du problème
Les données
Toute étude ⇒ recueillir des données
Les variables sont qualitatives ou quantitatives
La plannification de l’étude ⇒ on espère recueillir toutes les
données nécessaires
= Toutes les données pour toutes les variables pour tous les
sujets
N. MEYER
Données manquantes
Introduction
Définitions
Les méthodes d’analyse
Conclusion
Importance du problème
Les données manquantes
Données manquantes (DM) : données que l’on voulait
recueillir mais qui ne l’ont pas été.
Données qui devaient être recueillies mais dont la vraie valeur
est inconnue
Exemples :
sujet qui ne répond qu’à certaines questions d’un sondage
absence de réponse à l’une des vagues d’une enquête
longitudinale
DM sont très fréquentes : 95% des jeux de données sont
incomplets (au moins une DM)
Prévalence plus ou moins importante : de quelques unes à plus
de 50% de DM
Semblent pratiquement inévitables
N. MEYER
Données manquantes
Introduction
Définitions
Les méthodes d’analyse
Conclusion
Classification méthodologique des DM
Impact des données manquantes
Effet des manquants
Classification de Little et Rubin
Donnée manquante
Définition :
Soit une variable aléatoire X quelconque. Une DM xm est une
donnée pour laquelle la valeur X = x est inconnue. On ne dispose
pas de la valeur de X pour le sujet i .
N. MEYER
Données manquantes
Introduction
Définitions
Les méthodes d’analyse
Conclusion
Classification méthodologique des DM
Impact des données manquantes
Effet des manquants
Classification de Little et Rubin
Classification méthodologique des DM
Origine matérielle des DM :
La valeur de xi n’a pas été mesurée (oubli...)
la valeur : mesurée mais perdue ou non notée
la valeur : mesurée, notée, mais considérée comme non
utilisable : donnée jugée aberrante / erreur manifeste
la donnée : mesurée mais pas disponible : (( Ne Sait Pas ))
idem : cas particuliers de données censurées.
N. MEYER
Données manquantes
Introduction
Définitions
Les méthodes d’analyse
Conclusion
Classification méthodologique des DM
Impact des données manquantes
Effet des manquants
Classification de Little et Rubin
Classification méthodologique des DM
Des cas particuliers où la donnée est mesurée mais n’est pas
disponible → donnée connue partiellement mais pas totalement
manquante
censure (1) : la valeur < ou > limites de détection de l’outil
HIV : nombre de copies du virus sous la limite de détection
D-dimères : si > 20000 : 20000 et la vraie valeur est inconnue
censure (2) : des études de survie
durée de survie : supérieure à une durée d
données (( non encore manquantes )) : indice CAO → si dent
non sortie, CAO sur ensemble incomplet
distinguer la DM et le zéro d’échantillonage
N. MEYER
Données manquantes
Introduction
Définitions
Les méthodes d’analyse
Conclusion
Classification méthodologique des DM
Impact des données manquantes
Effet des manquants
Classification de Little et Rubin
Classification par rapport à l’unité statistique
La donnée est manquante en raison de :
non réponse de l’unité statistique : aucune mesure n’est
obtenue pour l’unité statistique
non réponse pour l’item : seule manque la mesure sur la
variable X considérée.
en général, DM non intentionnellement (tous les cas
précédent)
manquant intentionnel : sondage par bloc de variable
→ problème du data matching
N. MEYER
Données manquantes
Introduction
Définitions
Les méthodes d’analyse
Conclusion
Classification méthodologique des DM
Impact des données manquantes
Effet des manquants
Classification de Little et Rubin
Les DM d’un point de vue statistique
En analysant des données incomplètes, on souhaite avoir des
résultats valides malgré les DM
Valides : i.e. p-valeurs, intervalles de confiances et estimations
ponctuelles (moyenne, variance, proportions, paramètres de
régression, etc) correctes ou encore des distributions
a posteriori correctes
Ceci n’est possible que dans des conditions assez restrictives.
La plupart du temps, il faut faire des hypothèses que l’on ne
peut pas vérifier.
N. MEYER
Données manquantes
Introduction
Définitions
Les méthodes d’analyse
Conclusion
Classification méthodologique des DM
Impact des données manquantes
Effet des manquants
Classification de Little et Rubin
Les DM d’un point de vue statistique
Ceci implique le mécanisme aboutissant à une DM : le
mécanisme des manquants et si ce mécanisme dépend d’autre
variables (mesurées ou non). Ce mécanisme des manquants
est généralement inconnu d’un point de vue pratique
mais il existe une classification théorique
⇒ Classification statistique des données manquantes (Little &
Rubin)
⇒ Important : Diffèrentes situations → diffèrentes méthodes
statistiques
N. MEYER
Données manquantes
Introduction
Définitions
Les méthodes d’analyse
Conclusion
Classification méthodologique des DM
Impact des données manquantes
Effet des manquants
Classification de Little et Rubin
Un exemple sur une variable
variable X , n-échantillon dont m valeurs manquantes
& taille de l’échantillon de n à n − m = np , de m/n %
on peut estimer m̄ et s 2 sur les n − m présents
valide que si np valeurs : sous-échantillon aléatoire des n
le fait d’être manquant ne dépend pas de la valeur
(manquante)
Pr(xi : ∗) = p, ∀i .
sinon il y a un biais
N. MEYER
Données manquantes
Introduction
Définitions
Les méthodes d’analyse
Conclusion
Classification méthodologique des DM
Impact des données manquantes
Effet des manquants
Classification de Little et Rubin
Effet des manquants : Un exemple (1)
Biais et Perte de Puissance
on tire 1000 valeurs d’une v.a. gaussienne centrée réduite
on vérifie sa moyenne et sa variance et on trace l’histogramme
des valeurs
on supprime aléatoirement 250 valeurs sur l’ensemble des
valeurs du vecteur
on vérifie que la moyenne et la variance du sous-échantillon
sont proches des valeurs de l’échantillon de départ
N. MEYER
Données manquantes
Introduction
Définitions
Les méthodes d’analyse
Conclusion
Classification méthodologique des DM
Impact des données manquantes
Effet des manquants
Classification de Little et Rubin
Effet des manquants : Un exemple (2)
On retire ensuite des valeurs surtout dans les valeurs basses de
l’échantillon : on retire 225 valeurs parmi les valeurs basses et
25 parmi les valeurs hautes.
on calcule la moyenne et la variance de l’échantillon et on
trace son histogramme. On vérifie que les estimations des
paramètres sont biaisés.
N. MEYER
Données manquantes
Introduction
Définitions
Les méthodes d’analyse
Conclusion
Classification méthodologique des DM
Impact des données manquantes
Effet des manquants
Classification de Little et Rubin
Autres exemple
Voir simulations sur R. modifications des paramètres selon les
manquants.
N. MEYER
Données manquantes
Introduction
Définitions
Les méthodes d’analyse
Conclusion
Classification méthodologique des DM
Impact des données manquantes
Effet des manquants
Classification de Little et Rubin
la forme de la distribution obervée sur les données complètes
n’est pas forcément la forme de la distribution complète.
en présence de données manquantes : biais ? importance ?
la distribution observée sur le sous-échantillon complet est-elle
représentative de la forme de la distribution dans la
population ?
si on observe une distribution asymétrique, est-elle
asymétrique ou bien le mécanisme des manquants est
non-aléatoire ?
N. MEYER
Données manquantes
Introduction
Définitions
Les méthodes d’analyse
Conclusion
Classification méthodologique des DM
Impact des données manquantes
Effet des manquants
Classification de Little et Rubin
si les DM sont manquantes aléatoirement : le mécanisme est
(( ignorable ))
si les DM sont manquantes non aléatoirement (i.e. si la proba
que xi soit manquant dépend de la valeur de xi , le mécanisme
n’est pas (( ignorable )), et les analyses sur le sous-échantillon
sont sujettes à biais.
si censure complète au dela d’un seuil, par exemple 0 :
Pr(Ri = 1|yi ) = Pr(yi obs|yi ) = 1 si yi < 0, 0 sinon.
N. MEYER
Données manquantes
Introduction
Définitions
Les méthodes d’analyse
Conclusion
Classification méthodologique des DM
Impact des données manquantes
Effet des manquants
Classification de Little et Rubin
Classification des manquants
Classification introduite par Little et Rubin (1976, Biometrika) ;
encore appelé (( distribution of missingness ))
Pr(ri |xi ; yi ; φ) : Probabilité que xi soit manquant
introduit non pas pour le modèliser
car en général l’information est insuffisante pour le modèliser
correctement
mais pour savoir dans quelle conditions on peut l’ignorer
N. MEYER
Données manquantes
Introduction
Définitions
Les méthodes d’analyse
Conclusion
Classification méthodologique des DM
Impact des données manquantes
Effet des manquants
Classification de Little et Rubin
Classification des manquants
Situation bivariée : les éléments
Soit deux V.A. X et Y , n réalisations.
X est complètement observée
Y comporte des valeurs manquantes
les deux V.A. X et Y soit qualitative(s) soit quantitative(s)
sans perte de généralité.
N. MEYER
Données manquantes
Introduction
Définitions
Les méthodes d’analyse
Conclusion
Classification méthodologique des DM
Impact des données manquantes
Effet des manquants
Classification de Little et Rubin
Situation bivariée
sujet
X
Y
1
...
ii
...
i +1
...
n
x1
...
xi
...
xi+1
...
xn
y1
...
yi
...
*
...
*
Tab.: Classification de Little & Rubin
N. MEYER
Données manquantes
Introduction
Définitions
Les méthodes d’analyse
Conclusion
Classification méthodologique des DM
Impact des données manquantes
Effet des manquants
Classification de Little et Rubin
Les trois cas possibles
(1) La probabilité d’avoir une valeur manquante est indépendante
de X et de Y
Pr (D : Mqt|obs, mqt) = Pr (D : Mqt)
(2) La probabilité d’avoir une valeur manquante dépend de X
mais pas de Y
Pr (D : Mqt|obs, mqt) = Pr (D : Mqt|obs)
(3) La probabilité d’avoir une valeur manquante dépend de X et
de Y
Pr (D : Mqt|obs, mqt) = Pr (D : Mqt|obs, mqt)
N. MEYER
Données manquantes
Introduction
Définitions
Les méthodes d’analyse
Conclusion
Classification méthodologique des DM
Impact des données manquantes
Effet des manquants
Classification de Little et Rubin
Les trois cas possibles
soit Y = {Yij } un jeu de données composé de deux parties :
Y = (Yobs , Ymqt )
soit une indicatrice Rij telle que Rij = 1 si Yij est manquant
et Rij = 0 sinon
le mécanisme des manquants est spécifié par un modèle pour
la probabilité de réponse :
Pr(R = r |Y = y, θ) = fR/Y (r |yobs , ymqt , θ)
le mécanisme est donc la distribution de R sachant Y .
N. MEYER
Données manquantes
Introduction
Définitions
Les méthodes d’analyse
Conclusion
Classification méthodologique des DM
Impact des données manquantes
Effet des manquants
Classification de Little et Rubin
Les trois cas possibles
(1) La situation MCAR : R et Y sont indépendant, la distribution
de R ne dépend pas des données
fR/Y (r |yobs , ymqt , θ) = fR (r |θ)
(2) Situation MAR : la connaissance de Ymiss ne donne pas
d’information supplémentaire sur R si Yobs est déjà connu. La
distribution de R ne dépend pas des manquants
fR/Y (r |yobs , ymqt , θ) = fR (r |yobs , θ)
(3) La distribution de R dépend de la valeur (inconnue) des
manquants
fR/Y (r |yobs , ymqt , θ) = fR (r |yobs , ymqt , θ)
N. MEYER
Données manquantes
Introduction
Définitions
Les méthodes d’analyse
Conclusion
Classification méthodologique des DM
Impact des données manquantes
Effet des manquants
Classification de Little et Rubin
Premier cas : MCAR
La probabilité d’avoir une valeur manquante est indépendante de
X et de Y
les valeurs manquantes sont Manquantes Aléatoirement
Missing at random : MAR
les données observées sont Observées Aléatoirement
Observed at random : OAR
,→ les données sont manquantes complétement aléatoirement
Missing Completely at Random : MCAR
les valeurs Y observées : sous-échantillon aléatoire de Y
N. MEYER
Données manquantes
Introduction
Définitions
Les méthodes d’analyse
Conclusion
Classification méthodologique des DM
Impact des données manquantes
Effet des manquants
Classification de Little et Rubin
1.0
x
x
x
x
0.0
0.5
x
x
−0.5
Y : categorical variable
1.5
MCAR : Missing Completely At Random
0.0
0.2
0.4
0.6
0.8
X : continuous variable
N. MEYER
Données manquantes
1.0
Introduction
Définitions
Les méthodes d’analyse
Conclusion
Classification méthodologique des DM
Impact des données manquantes
Effet des manquants
Classification de Little et Rubin
Deuxième cas : MAR
La probabilité d’avoir une valeur manquante dépend de X mais pas
de Y
on dit que le données sont manquantes aléatoirement
Missing at Random : MAR
les valeurs observées de Y ne sont pas forcément un
sous-échantillon aléatoire des valeurs échantillonnées de Y
mais elles sont un sous-échantillon aléatoire de Y dans des
sous-classes définies par les valeurs de X .
N. MEYER
Données manquantes
Introduction
Définitions
Les méthodes d’analyse
Conclusion
Classification méthodologique des DM
Impact des données manquantes
Effet des manquants
Classification de Little et Rubin
1.5
MAR : Missing At Random
xxxx
0.5
x
x
x
xxx x
−0.5
0.0
Y : categorical variable
1.0
x
0.0
0.2
0.4
0.6
0.8
1.0
X : continuous variable
Yobs est un sous-échantillon aléatoire / représentatif de Y dans
des catégories de X .
N. MEYER
Données manquantes
Introduction
Définitions
Les méthodes d’analyse
Conclusion
Classification méthodologique des DM
Impact des données manquantes
Effet des manquants
Classification de Little et Rubin
1.5
MAR : Missing At Random
xxxx
0.5
x
x
x
xxx x
−0.5
0.0
Y : categorical variable
1.0
x
0.0
0.2
0.4
0.6
0.8
1.0
X : continuous variable
Yobs est un sous-échantillon aléatoire / représentatif de Y dans
des catégories de X .
N. MEYER
Données manquantes
Introduction
Définitions
Les méthodes d’analyse
Conclusion
Classification méthodologique des DM
Impact des données manquantes
Effet des manquants
Classification de Little et Rubin
Troisième cas : MNAR
La probabilité d’avoir une valeur manquante dépend de X et de Y
les valeurs ne sont ni manquantes aléatoirement (non MAR)
ni obervées aléatoirement (non OAR)
les données sont manquantes non aléatoires : M Not AR
(MNAR)
N. MEYER
Données manquantes
Introduction
Définitions
Les méthodes d’analyse
Conclusion
Classification méthodologique des DM
Impact des données manquantes
Effet des manquants
Classification de Little et Rubin
x
x
0.5
1.0
x
0.0
xxxxxx
−0.5
Y : categorical variable
1.5
MNAR : Missing Not At Random
0.0
0.2
0.4
0.6
0.8
X : continuous variable
N. MEYER
Données manquantes
1.0
Introduction
Définitions
Les méthodes d’analyse
Conclusion
Classification méthodologique des DM
Impact des données manquantes
Effet des manquants
Classification de Little et Rubin
Conséquences
Si MCAR et MAR le mécanisme des manquants peut être
ignoré pour les méthodes d’inférence basées sur la
vraisemblance
Dans le cas MCAR, le mécanisme peut-être ignoré à la fois
pour les approches basées sur la vraisemblance et pour les
approches basées sur l’échantillonage
Dans le cas MNAR le mécanisme ne peut pas être ignoré
N. MEYER
Données manquantes
Introduction
Définitions
Les méthodes d’analyse
Conclusion
Classification méthodologique des DM
Impact des données manquantes
Effet des manquants
Classification de Little et Rubin
Quelques exemples
le café sur la feuille de relevé
la panne d’appareil de mesure
le dosage impossible pour raisons liées au sujet
coagulation du tube de sang avant dosage
si dosage lié à un trouble de la coagulation : MNAR
si dosage autre : MCAR
dossier médical incomplet
N. MEYER
Données manquantes
Introduction
Définitions
Les méthodes d’analyse
Conclusion
Classification méthodologique des DM
Impact des données manquantes
Effet des manquants
Classification de Little et Rubin
Quelques exemples
les aidants des personnes âgées dépendantes, pour savoir si la
personne aidée représente une charge, la présence d’une
réponse dépend de la valeur de la réponse
consommation d’alcool est souvent d’autant plus minimisée
que cette consommation est forte
dans les dossiers médicaux, la probabilité qu’un symptome
négatif soit noté est plus faible que la probabilité qu’un
symptôme positif soit noté.
N. MEYER
Données manquantes
Introduction
Définitions
Les méthodes d’analyse
Conclusion
Classification méthodologique des DM
Impact des données manquantes
Effet des manquants
Classification de Little et Rubin
Quelques exemples (2)
Soit deux V.A. continues, une est sujette à non-réponse. La
variable X complètement observée est l’âge et la variable Y
incomplètement observée est le revenu
Si la probabilité que le revenu soit manquant est indépendante
de l’âge et du revenu du sujet, alors les données sont de type
MCAR (OAR + MAR).
Si la probabilité que le revenu soit manquant dépend de l’âge
de la personne interrogée mais pas de son revenu, alors les
DM sont manquantes aléatoirement (ne dépendent pas du
revenu) mais elles ne sont pas observées aléatoirement
(dépendent de l’âge) : elles sont donc de type MAR
N. MEYER
Données manquantes
Introduction
Définitions
Les méthodes d’analyse
Conclusion
Classification méthodologique des DM
Impact des données manquantes
Effet des manquants
Classification de Little et Rubin
Quelques exemples (3)
Si la probabilité que le revenu soit manquant dépend de l’âge
de la personne et de son revenu, les DM ne sont pas
manquantes aléatoirement (dépendent du revenu) et ne sont
pas observées aléatoirement (dépendent de l’âge) : elles sont
donc de type MNAR.
N. MEYER
Données manquantes
Introduction
Définitions
Les méthodes d’analyse
Conclusion
Classification méthodologique des DM
Impact des données manquantes
Effet des manquants
Classification de Little et Rubin
Quelques exemples (4)
un animal meurt au décours d’une expérience avant le recueil
de y
ex. application de goudron sur la peau d’un rat : test cutané du
pouvoir cancérigène
cause du décès ?
mort naturelle ?
passage transcutané de constituant du goudron ?
et donc toxicité (cardiaque, autre) du goudron ?
lien avec les analyses de survie
N. MEYER
Données manquantes
Introduction
Définitions
Les méthodes d’analyse
Conclusion
Classification méthodologique des DM
Impact des données manquantes
Effet des manquants
Classification de Little et Rubin
Quelques exemples (5)
Études longitudinales
cas de la survie et de la censure
le sujet quitte l’étude
décès ? lié à l’étude ?
étude longitudinale
le sujet ne se présente pas à la visite vi , i < imax
le sujet ne se présente pas aux visites vi et suivante
décès ? lié à l’étude ?
N. MEYER
Données manquantes
Introduction
Définitions
Les méthodes d’analyse
Conclusion
Classification méthodologique des DM
Impact des données manquantes
Effet des manquants
Classification de Little et Rubin
L’intérêt de cette classification
Prendre en compte le mécanisme des manquants dans
l’analyse
Si on s’intéresse uniquement à la distribution marginale de X
(l’âge), les données de Y et le mécanisme des manquants n’a
aucune importance
Si on souhaite avoir une estimation conditionnelle de la valeur
de Y sachant X (par exemple la répartition des revenus en
fonction de l’âge), alors l’analyse sur les n − m valeurs
complètes est satisfaisante si les données sont MAR ou si elles
sont MCAR
Si on s’intéresse à la distribution marginale de Y (moyenne
des revenus), alors une analyse basée sur les unités complètes
est biaisée sauf si les données sont de type MCAR.
N. MEYER
Données manquantes
Introduction
Définitions
Les méthodes d’analyse
Conclusion
Classification méthodologique des DM
Impact des données manquantes
Effet des manquants
Classification de Little et Rubin
Si données MNAR, les estimations portant sur la distribution
marginale de Y et sur la distribution conditionnelle de Y sachant
X sont biaisées et nécessitent une modélisation des valeurs
manquantes
Dans les autres cas, la modélisation n’est pas nécessaire même si
des méthodes adaptées à l’analyse statistique en présence de DM
doivent être utilisées.
N. MEYER
Données manquantes
Introduction
Définitions
Les méthodes d’analyse
Conclusion
Classification méthodologique des DM
Impact des données manquantes
Effet des manquants
Classification de Little et Rubin
reprendre les exemples sur l’impact des manquants dans R.
N. MEYER
Données manquantes
Introduction
Définitions
Les méthodes d’analyse
Conclusion
Classification méthodologique des DM
Impact des données manquantes
Effet des manquants
Classification de Little et Rubin
Commentaires
Le problème principal est que lorsque l’on a des données
incomplètes, il est très difficile de savoir quelle est la vraie
distribution des données et donc de savoir quel est le mécanisme
des manquants ou au moins lequel est le plus probable ! Il y a une
part d’avis subjectif dans le choix mais ce peut-être un avis éclairé !
N. MEYER
Données manquantes
Introduction
Définitions
Les méthodes d’analyse
Conclusion
Classification méthodologique des DM
Impact des données manquantes
Effet des manquants
Classification de Little et Rubin
Pertinence de cette classification
Permet de prendre en compte le mécanisme des manquants
lors de l’analyse
Si on l’intéresse à la distribution marginale des revenus, les
résultats sont biaisés sauf si les données sont MCAR
Si l’on s’intéresse à la distribution conditionnelle du revenu en
fonction de l’âge, c.-à-d. pour des classes d’âges données, une
analyse basée sur les unités statistiques complètes est
satisfaisante si les DM sont MAR
Si les DM sont MNAR, les estimations basées sur la
distribution marginale du revenu ou sur la distribution
conditionnelle du revenu selon l’âge sont biaisées et nécessite
une modèlisation explicite des MD.
N. MEYER
Données manquantes
Introduction
Définitions
Les méthodes d’analyse
Conclusion
Classification méthodologique des DM
Impact des données manquantes
Effet des manquants
Classification de Little et Rubin
DM et données longitudinales
Dans le cas de données longitudinales (rappel), la classification est
modifiée (voir Schafer).
MCAR le mécanisme ne dépend ni des covariables xi ni de Y
Pr(ri |xi ; yi ; φ) = Pr(ri |φ)
CD Covariate-dependent (CD) missingness : le mécanisme peut
dépendre de xi mais pas de Y : Pr(ri |xi ; yi ; φ) = Pr(ri |xi ; φ)
MAR le mécanisme peut dépendre des cov. xi et des Y observés :
Pr(ri |xi ; yi ; φ) = Pr(ri |xi ; yi(obs) ; φ)
MNAR tous les autres cas : le mécanisme dépend encore de ymqt
même après prise en compte des xi , et des yobs .
N. MEYER
Données manquantes
Introduction
Définitions
Les méthodes d’analyse
Conclusion
Classification méthodologique des DM
Impact des données manquantes
Effet des manquants
Classification de Little et Rubin
DM et données longitudinales
En cas de sortie d’étude (avant fin de suivi), signification :
MCAR la Pr. de sortie ne dépend pas des caractéristiques du sujets
CD la Pr. de sortie peut être liée à des covariables mais pas à la
mesure d’intérêt
MAR la Pr. de sortie peut être liée à des covariables et la valeur de
la mesure d’intérêt avant la sortie d’étude
MNAR la Pr. de sortie peut être liée à la mesure d’intérêt au moment
de la sortie et parfois à la mesure après la sortie de l’étude :
cas souvent crédible
N. MEYER
Données manquantes
Introduction
Définitions
Les méthodes d’analyse
Conclusion
Classification méthodologique des DM
Impact des données manquantes
Effet des manquants
Classification de Little et Rubin
DM et données longitudinales
Que peut-on dire des données ?
comme on observe xi , ri et yobs on peut souvent rejeter
MCAR et CD
on ne peut pas rejeter MAR en faveur de MNAR car on
n’observe pas ymqt
tester MAR suppose des hypothèses invérifiables
N. MEYER
Données manquantes
Introduction
Définitions
Les méthodes d’analyse
Conclusion
Classification méthodologique des DM
Impact des données manquantes
Effet des manquants
Classification de Little et Rubin
DM et données longitudinales
les données ne sont pas MCAR car sorties différentes dans
TMT et contrôle
pas seulement CD car complets et sortie ont des trajectoires
différentes
MAR ou MNAR, on ne peut pas savoir
N. MEYER
Données manquantes
Introduction
Définitions
Les méthodes d’analyse
Conclusion
Classification méthodologique des DM
Impact des données manquantes
Effet des manquants
Classification de Little et Rubin
L’(( ignorabilité )) des données
Les données sont (( ignorables )) si :
1
les données sont MAR
2
les paramètres grouvernant le mécanisme des manquants ne
sont pas reliés aux paramètres que l’on veut estimer
Cela signifie que :
pas nécessaire de modèliser le mécanisme des manquants
comme une part de l’estimation des paramètres
mais nécessite quand même des méthodes particulières
en pratique, toujours : ignorable (condition (2) ci-dessus
toujours remplie)
N. MEYER
Données manquantes
Introduction
Définitions
Les méthodes d’analyse
Conclusion
Classification méthodologique des DM
Impact des données manquantes
Effet des manquants
Classification de Little et Rubin
L’(( ignorabilité )) des données
Les données sont (( non-ignorables )) si les données ne sont pas
MAR.
implique de modéliser le mécanisme des manquants pour avoir
une bonne estimation des paramètres
implique des hypothèses fortes et non vérifiables sur le
mécanisme
donc d’applicabilité limitée
car résultats très dépendants des hypothèses sur les
manquants
et implique un modèle pour chaque cas particulier
donc, bien qu’évident, très peu utilisé
nous ne verrons que le cas ignorable
N. MEYER
Données manquantes
Introduction
Définitions
Les méthodes d’analyse
Conclusion
Classification méthodologique des DM
Impact des données manquantes
Effet des manquants
Classification de Little et Rubin
Un cas particulier
le (( missing plot )) dans un plan factoriel
issu de l’agronomie, quand un plot est un manquant
méthodes à part dédiées à ce problème
N. MEYER
Données manquantes
Introduction
Définitions
Les méthodes d’analyse
Conclusion
Classification méthodologique des DM
Impact des données manquantes
Effet des manquants
Classification de Little et Rubin
Les données monotones
Une répartition de données manquantes est dit monotone si :
les variables peuvent être arrangées d’une manière telle que
pour chaque observation de l’échantillon, si Xj est manquant,
alors Xj +j 0 est aussi manquant, avec j 0 entier positif et
j + j0 ≤ p
donc si pour un sujet i , les données sont manquantes à partir
d’une certaine variable
qui peut changer d’un sujet à l’autre
fréquent dans les données longitudinales (abandont du sujet à
partir d’une date donnée)
si une seule variable, forcément monotone
N. MEYER
Données manquantes
Introduction
Définitions
Les méthodes d’analyse
Conclusion
-->
-->
-->
-->
-->
-->
1
2
3
1
2
3
A
A
B
A
A
B
2
3
4
2
3
4
8
4
7
8
4
7
9
9
6
9
4
6
8
1
3
*
*
*
8
2
*
*
*
*
Classification méthodologique des DM
Impact des données manquantes
Effet des manquants
Classification de Little et Rubin
7
*
*
*
*
*
N. MEYER
Données manquantes
Introduction
Définitions
Les méthodes d’analyse
Conclusion
Classification méthodologique des DM
Impact des données manquantes
Effet des manquants
Classification de Little et Rubin
Deux autres types de répartition
Une répartition de données manquantes peut prendre d’autres
formes :
une répartition quelconque
une répartition très structurée
parfois volontaire
ou résultant de l’histoire des données comme dans la fusion de
données : deux (( demi-sondages )) ou sondages à deux époques
différentes
un cas très particulier : les variables latentes ou toutes les
valeurs d’une variables sont à retrouver, comme en analyse
factorielle
N. MEYER
Données manquantes
Introduction
Définitions
Les méthodes d’analyse
Conclusion
-->
-->
-->
-->
-->
-->
1
2
3
1
2
3
A
A
B
A
A
B
2
3
*
2
*
4
8
*
7
8
*
7
9
9
6
9
4
6
8
1
3
*
8
*
8
2
9
3
2
1
Classification méthodologique des DM
Impact des données manquantes
Effet des manquants
Classification de Little et Rubin
7
7
*
*
*
6
Il s’agit ici d’une répartition arbitraire
N. MEYER
Données manquantes
Introduction
Définitions
Les méthodes d’analyse
Conclusion
-->
-->
-->
-->
-->
-->
1
2
3
1
2
3
A
A
B
A
A
B
2
3
4
2
3
4
8
4
7
8
4
7
9
9
6
9
4
6
Classification méthodologique des DM
Impact des données manquantes
Effet des manquants
Classification de Little et Rubin
*
*
*
*
*
*
Il s’agit ici d’une variable latente
N. MEYER
Données manquantes
Introduction
Définitions
Les méthodes d’analyse
Conclusion
Classification méthodologique des DM
Impact des données manquantes
Effet des manquants
Classification de Little et Rubin
Le data fusion
Le data fusion (et le data matching, impliqué par le DF) :
l’ensemble des données sur un sujets ne sont pas forcément
dans une seule base de données
Def˚ : Combinaison de données, provenant de sources
différentes, pour obtenir un seul jeu de données dans lequel
toutes les variables sont renseignées (présence obligatoire de
variables communes)
fusionne des variables provenant d’un dataset avec des
variables d’un second dataset, en appariant les observations
par paires à partir de variables communes appelées (( variables
d’appariement )) ((( match variables ))).
N. MEYER
Données manquantes
Introduction
Définitions
Les méthodes d’analyse
Conclusion
Classification méthodologique des DM
Impact des données manquantes
Effet des manquants
Classification de Little et Rubin
Le data fusion
Le data fusion (suite) :
Il n’est pas nécessaire que les observations soient identiques
dans les deux datasets, c.-à-d. que toutes les observations
dans un dataset ne doivent pas forcément figurer dans l’autre.
par appariement d’individu (plus proche voisin) ou par
prédiction de variables
N. MEYER
Données manquantes
Introduction
Définitions
Les méthodes d’analyse
Conclusion
-->
-->
-->
-->
-->
-->
1
2
3
1
2
3
A
A
B
A
A
B
2
3
4
2
3
4
8
4
7
8
4
7
9
9
6
9
4
6
8
1
3
*
*
*
8
2
9
*
*
*
*
*
*
2
3
6
Classification méthodologique des DM
Impact des données manquantes
Effet des manquants
Classification de Little et Rubin
*
*
*
1
5
9
Il s’agit ici de fusionner les données en remplacant les données
manquantes.
N. MEYER
Données manquantes
Introduction
Définitions
Les méthodes d’analyse
Conclusion
La description des données
Après la description, l’analyse
Les méthodes sans modélisation
Imputation simple
L’algorithme EM
Imputation Multiple
Que faire en présence de DM ?
Avant tout, il faut décrire les données, c.-à-d. les données
manquantes et les données non manquantes
Combien de DM ?
Combien de DM par variable ?
Ou sont les DM ?
Certaines variables seulement ? Toutes les variables ?
certains sujets seulement ? Tous les sujets ?
Calculer le nombre et la proportion de données manquantes
(la plupart des logiciels le font automatiquement)
Decrire graphiquement les données et les données manquantes
N. MEYER
Données manquantes
Introduction
Définitions
Les méthodes d’analyse
Conclusion
La description des données
Après la description, l’analyse
Les méthodes sans modélisation
Imputation simple
L’algorithme EM
Imputation Multiple
typetrav Dénom. DénCum
1
448
448
2
60
508
3
197
705
N=
705
*=
94
% % Cum
63.55 63.55
8.51 72.06
27.94 100.00
déclench Dénom. DénCum
0
645
645
1
60
705
N=
705
*=
94
% % Cum
91.49 91.49
8.51 100.00
N. MEYER
Données manquantes
R827
R813
L797
L811
L786
L773
L758
L686
R681
L673
L651
R638
L636
L592
R590
L584
L551
L543
R487
L477
L451
R450
L448
L410
R381
L358
L352
R349
L346
L333
R323
R221
L204
R198
L186
L138
L599
La description des données
Après la description, l’analyse
Les méthodes sans modélisation
Imputation simple
L’algorithme EM
Imputation Multiple
Introduction
Définitions
Les méthodes d’analyse
Conclusion
D9S171
D9S171
N. MEYER
Données manquantes
R827
R813
L797
L811
L786
L773
L758
Norm.
D2S138
L686
D18S61
R681
D16S422
D2S138
L673
D17S794
D18S61
L651
D6S264
D16S422
R638
D14S65
D17S794
L636
D18S53
D6S264
L599
D17S790
D14S65
L592
D1S225
D18S53
R590
D3S1282
D17S790
L584
D9S179
D1S225
L551
D5S430
D3S1282
L543
D8S283
D9S179
R487
D11S916
D5S430
L477
D2S159
D8S283
L451
D16S408
D11S916
R450
D5S346
D2S159
L448
D10S191
D16S408
L410
D13S173
D5S346
R381
D6S275
D10S191
L358
D15S127
D13S173
L352
D1S305
D6S275
R349
D4S394
D15S127
L346
D20S107
D1S305
L333
D1S197
D4S394
R323
D1S207
D20S107
R221
D10S192
D1S197
L204
D3S1283
D1S207
L186
D4S414
D10S192
L138
D8S264
D3S1283
R198
D22S928
D4S414
AI
TP53
D8S264
manquants
TP53
D22S928
R827
R813
L797
L811
L786
L773
L758
L686
R681
L673
L651
R638
L636
L592
R590
L584
L551
L543
R487
L477
L451
R450
L448
L410
R381
L358
L352
R349
L346
L333
R323
R221
L204
R198
L186
L138
L599
La description des données
Après la description, l’analyse
Les méthodes sans modélisation
Imputation simple
L’algorithme EM
Imputation Multiple
Introduction
Définitions
Les méthodes d’analyse
Conclusion
D9S171
D9S171
N. MEYER
Données manquantes
R827
R813
L797
L811
L786
L773
L758
D2S138
L686
D18S61
R681
D16S422
D2S138
L673
D17S794
D18S61
L651
D6S264
D16S422
R638
D14S65
D17S794
L636
D18S53
D6S264
L599
D17S790
D14S65
L592
D1S225
D18S53
R590
D3S1282
D17S790
L584
D9S179
D1S225
L551
D5S430
D3S1282
L543
D8S283
D9S179
R487
D11S916
D5S430
L477
D2S159
D8S283
L451
D16S408
D11S916
R450
D5S346
D2S159
L448
D10S191
D16S408
L410
D13S173
D5S346
R381
D6S275
D10S191
L358
D15S127
D13S173
L352
D1S305
D6S275
R349
D4S394
D15S127
L346
D20S107
D1S305
L333
D1S197
D4S394
R323
D1S207
D20S107
R221
D10S192
D1S197
L204
D3S1283
D1S207
L186
D4S414
D10S192
L138
D8S264
D3S1283
R198
D22S928
D4S414
Présents
TP53
D8S264
Manquants
TP53
D22S928
La description des données
Après la description, l’analyse
Les méthodes sans modélisation
Imputation simple
L’algorithme EM
Imputation Multiple
Introduction
Définitions
Les méthodes d’analyse
Conclusion
Données manquantes
GR
GB
TAT
Ddim
PF4
Gly
NumPlq
N. MEYER
TG
CLDL
CHDL
CT
Jeun
tab
BMI
Taille
Poids
Sexe
Age
Manquants
300
299
298
297
296
295
294
293
292
291
290
289
288
287
286
285
284
283
282
281
280
279
278
277
276
275
274
273
272
271
270
269
268
267
266
265
264
263
262
261
260
259
258
257
256
255
254
253
252
251
250
249
248
247
246
245
244
243
242
241
240
239
238
237
236
235
234
233
232
231
230
229
228
227
226
225
224
223
222
221
220
219
218
217
216
215
214
213
212
211
210
209
208
207
206
205
204
203
202
201
200
199
198
197
196
195
194
193
192
191
190
189
188
187
186
185
184
183
182
181
180
179
178
177
176
175
174
173
172
171
170
169
168
167
166
165
164
163
162
161
160
159
158
157
156
155
154
153
152
151
150
149
148
147
146
145
144
143
142
141
140
139
138
137
136
135
134
133
132
131
130
129
128
127
126
125
124
123
122
121
120
119
118
117
116
115
114
113
112
111
110
109
108
107
106
105
104
103
102
101
100
99
98
97
96
95
94
93
92
91
90
89
88
87
86
85
84
83
82
81
80
79
78
77
76
75
74
73
72
71
70
69
68
67
66
65
64
63
62
61
60
59
58
57
56
55
54
53
52
51
50
49
48
47
46
45
44
43
42
41
40
39
38
37
36
35
34
33
32
31
30
29
28
27
26
25
24
23
22
21
20
19
18
17
16
15
14
13
12
11
10
9
8
7
6
5
4
3
2
1
GPV
300
299
298
297
296
295
294
293
292
291
290
289
288
287
286
285
284
283
282
281
280
279
278
277
276
275
274
273
272
271
270
269
268
267
266
265
264
263
262
261
260
259
258
257
256
255
254
253
252
251
250
249
248
247
246
245
244
243
242
241
240
239
238
237
236
235
234
233
232
231
230
229
228
227
226
225
224
223
222
221
220
219
218
217
216
215
214
213
212
211
210
209
208
207
206
205
204
203
202
201
200
199
198
197
196
195
194
193
192
191
190
189
188
187
186
185
184
183
182
181
180
179
178
177
176
175
174
173
172
171
170
169
168
167
166
165
164
163
162
161
160
159
158
157
156
155
154
153
152
151
150
149
148
147
146
145
144
143
142
141
140
139
138
137
136
135
134
133
132
131
130
129
128
127
126
125
124
123
122
121
120
119
118
117
116
115
114
113
112
111
110
109
108
107
106
105
104
103
102
101
100
99
98
97
96
95
94
93
92
91
90
89
88
87
86
85
84
83
82
81
80
79
78
77
76
75
74
73
72
71
70
69
68
67
66
65
64
63
62
61
60
59
58
57
56
55
54
53
52
51
50
49
48
47
46
45
44
43
42
41
40
39
38
37
36
35
34
33
32
31
30
29
28
27
26
25
24
23
22
21
20
19
18
17
16
15
14
13
12
11
10
9
8
7
6
5
4
3
2
1
Présents
GR
GB
NumPlq
TAT
Ddim
PF4
Gly
TG
CLDL
CHDL
CT
Jeun
tab
BMI
Taille
Poids
Sexe
Age
GPV
Data missing by block (intended or not)
Introduction
Définitions
Les méthodes d’analyse
Conclusion
La description des données
Après la description, l’analyse
Les méthodes sans modélisation
Imputation simple
L’algorithme EM
Imputation Multiple
Determination du mécanisme des manquants
Le caractère manquant d’une donnée peut-être étudié
D devient Y
faire un modèle pour étudier les causes des manquants
facile à faire
problème circulaire : en général, DM sur plusieurs variables
(donc X incomplets)
difficile à interpréter
N. MEYER
Données manquantes
Introduction
Définitions
Les méthodes d’analyse
Conclusion
La description des données
Après la description, l’analyse
Les méthodes sans modélisation
Imputation simple
L’algorithme EM
Imputation Multiple
Que faire après la description
La plupart des logiciels décident tout seul ce qu’il faut faire
avec les données manquantes
Les logiciels courants utilisent des méthodes de mauvaises
qualités (SPSS notamment) ou rien (MINITAB)
Rares sont les logiciels qui permettent une analyse correcte :
S+/R, SAS et WinBUGS
N. MEYER
Données manquantes
Introduction
Définitions
Les méthodes d’analyse
Conclusion
La description des données
Après la description, l’analyse
Les méthodes sans modélisation
Imputation simple
L’algorithme EM
Imputation Multiple
méthode du cas complet
X deux V.A. X1 et X2 , n-échantillon.
m1 et m2 valeurs mqt. sur X1 et X2 .
Le nombre m de sujets ayant au moins une donnée manquante
max (m1 , m2 ) ≤ m ≤ m1 + m2
Le nombre nc de sujets complets est égale à n − m.
Donc en général nc < nombre de sujets complets pour X1 ou
pour X2 et :
la plupart du temps on perd plus de valeurs que le nombre réel
de valeurs manquantes
N. MEYER
Données manquantes
Introduction
Définitions
Les méthodes d’analyse
Conclusion
-->
-->
-->
1
2
3
A 3 4 * 56 H 1
A 2 8 9 47 F 1
B 4 7 6 55 F 0
-->
-->
-->
1
2
3
* * * * * * *
A 2 8 9 47 F 1
B 4 7 6 55 F 0
2
3
A 2 8 9 47 F 1
B 4 7 6 55 F 0
-->
-->
N. MEYER
La description des données
Après la description, l’analyse
Les méthodes sans modélisation
Imputation simple
L’algorithme EM
Imputation Multiple
Données manquantes
Introduction
Définitions
Les méthodes d’analyse
Conclusion
La description des données
Après la description, l’analyse
Les méthodes sans modélisation
Imputation simple
L’algorithme EM
Imputation Multiple
Méthode du cas complet : avantages
facilite les comparaisons entre analyses uni- et multivariées
mais seulement si on retire les mêmes sujets d’une analyse à
l’autre
pas-à-pas ascendants : le logiciel retire d’emblée les sujets
incomplets sur toutes les variables candidates même si in fine
toutes ne sont pas retenues dans le modèle
N. MEYER
Données manquantes
Introduction
Définitions
Les méthodes d’analyse
Conclusion
La description des données
Après la description, l’analyse
Les méthodes sans modélisation
Imputation simple
L’algorithme EM
Imputation Multiple
Méthode du cas complet : inconvénients
biais évident sauf si MCAR
perte de puissance
perte de cas rapidement considérable
si 10 variables avec 10% de manquants (sur des sujets
différents)
0, 910 cas complets = 34,8%
N. MEYER
Données manquantes
Introduction
Définitions
Les méthodes d’analyse
Conclusion
La description des données
Après la description, l’analyse
Les méthodes sans modélisation
Imputation simple
L’algorithme EM
Imputation Multiple
Méthode du cas disponible
on utilise pour chaque sous-analyse ou chaque sous-partie de
l’analyse l’ensemble des cas complets
avantage : nb max de sujets à chaque analyse / chaque partie
inconvénients : nb variables d’une analyse / partie à l’autre
Y = α1 + βX1 et Y = α1 + βX2
portent sur des sujets différents
ACP : matrice de covariance mal conformée
pas-à-pas : certains logiciels excluent les sujets incomplets à
chaque étape et pas d’emblée
N. MEYER
Données manquantes
Introduction
Définitions
Les méthodes d’analyse
Conclusion
La description des données
Après la description, l’analyse
Les méthodes sans modélisation
Imputation simple
L’algorithme EM
Imputation Multiple
Ajustement sur dummy variable
Une méthode simple et intuitive proposée par Cohen en 1985.
soit un modèle de régression Y = f (X )
soit une V.A. X explicative incomplète
on crée une V. indicatrice D, D = 1 si X manquant, D = 0
sinon
autre solution
on crée une V. indicatrice D ∗ , D ∗ = c si X manquant,
D ∗ = X sinon
ou c est une constante quelconque
le coefficient de X est invariant à c
N. MEYER
Données manquantes
Introduction
Définitions
Les méthodes d’analyse
Conclusion
La description des données
Après la description, l’analyse
Les méthodes sans modélisation
Imputation simple
L’algorithme EM
Imputation Multiple
Ajustement sur dummy variable
ce qui change selon c, c’est le coefficient de D ∗
pour faciliter l’interprétation : c = m(X = Xobs )
alors : βD = valeur prédite de Y pour les sujets incomplets
moins la valeur prédite de Y pour les individus à la moyenne
de X
mais la méthode est biaisée
et donc les estimations ne sont pas valides
N. MEYER
Données manquantes
Introduction
Définitions
Les méthodes d’analyse
Conclusion
La description des données
Après la description, l’analyse
Les méthodes sans modélisation
Imputation simple
L’algorithme EM
Imputation Multiple
Ajustement sur dummy variable
Cependant :
la méthode permet d’utiliser tous les sujets disponibles
y compris ceux qui sont incomplets
donc on évite la perte de puissance : meilleure précision des
estimateurs (et donc choisir entre biais et précision)
on peut également tester des interactions entre D ou D ∗ et Xj
pour détecter un mécanisme particulier pour les manquants
N. MEYER
Données manquantes
Introduction
Définitions
Les méthodes d’analyse
Conclusion
La description des données
Après la description, l’analyse
Les méthodes sans modélisation
Imputation simple
L’algorithme EM
Imputation Multiple
Les méthodes d’imputation
méthodes très nombreuses
consiste à substituer à la valeur manquante une valeur choisie
de manière (( pertinente )).
méthodes (( séduisantes et dangereuses )) (Rubin)
Deux grands types :
1
2
imputation simple
imputation multiple
N. MEYER
Données manquantes
Introduction
Définitions
Les méthodes d’analyse
Conclusion
La description des données
Après la description, l’analyse
Les méthodes sans modélisation
Imputation simple
L’algorithme EM
Imputation Multiple
Les méthodes d’imputation simple
(... et mauvaises)
LOCF : Last Observation Caried Forward
ajouter une catégorie pour les DM
moyenne non conditionnelle
moyenne conditionnelle (Buck) (par bloc ou pas)
imputation + aléa
simples mais inconvénients +++ / overfitting /ad hoc
estimations d’IC très difficiles
N. MEYER
Données manquantes
Introduction
Définitions
Les méthodes d’analyse
Conclusion
La description des données
Après la description, l’analyse
Les méthodes sans modélisation
Imputation simple
L’algorithme EM
Imputation Multiple
Ajout d’une catégorie pour les DM
Soit X une variable aléatoire catégorielle et incomplète
On crée une catégorie suplémentaire désignant la DM
On fait le modèle avec cette variable multinomiale
interprétation ? Délicate !
Bais + + et augmente le nb de ddl
Difficile à utiliser pour des variables ordinales ou continues
N. MEYER
Données manquantes
Introduction
Définitions
Les méthodes d’analyse
Conclusion
La description des données
Après la description, l’analyse
Les méthodes sans modélisation
Imputation simple
L’algorithme EM
Imputation Multiple
Last Observation Carried Forward : LOCF (1)
très prisée dans l’industrie pharmaceutique
consiste à remplacer une valeur manquante par la valeur qui la
précède dans le fichier ( !)
très facile à réaliser
aucune justification théorique
suppose que le fichier n’est pas trié et donc les sujets ont un
ordre aléatoire indépendant du mécanisme des manquants
N. MEYER
Données manquantes
Introduction
Définitions
Les méthodes d’analyse
Conclusion
La description des données
Après la description, l’analyse
Les méthodes sans modélisation
Imputation simple
L’algorithme EM
Imputation Multiple
Première variante : d’un sujet à l’autre
-->
-->
-->
1
2
3
A 2 8
A 3 4
B 4 7
9
*
6
47 F 1
56 H 1
55 F 0
-->
-->
-->
1
2
3
A 2 8 9 47 F 1
A 3 4 |9| 56 H 1
B 4 7 6 55 F 0
N. MEYER
Données manquantes
Introduction
Définitions
Les méthodes d’analyse
Conclusion
La description des données
Après la description, l’analyse
Les méthodes sans modélisation
Imputation simple
L’algorithme EM
Imputation Multiple
Seconde variante : d’un temps à l’autre pour un même sujet dans
une étude longitudinale
-->
-->
-->
1
2
3
A 2 8
A 3 4
B 4 7
9
*
6
-->
-->
-->
1
2
3
A 2 8 9
A 3 4 |4|
B 4 7 6
N. MEYER
Données manquantes
Introduction
Définitions
Les méthodes d’analyse
Conclusion
La description des données
Après la description, l’analyse
Les méthodes sans modélisation
Imputation simple
L’algorithme EM
Imputation Multiple
Last Observation Carried Forward : LOCF (1)
connait des variantes intéressantes par exemple pour des
données continues
on prend la valeur précédente plus un aléa suivant une loi
pertinente
peut s’envisager avec des raffinements dans de l’imputation
multiples
à ne jamais utiliser sinon
N. MEYER
Données manquantes
Introduction
Définitions
Les méthodes d’analyse
Conclusion
La description des données
Après la description, l’analyse
Les méthodes sans modélisation
Imputation simple
L’algorithme EM
Imputation Multiple
Les méthodes dans les enquêtes
Quelques méthodes classiques :
cold deck : source exterieur, limites + + +
substitution : tirage au sort d’une nouvelle unité
difficile si stratification a posteriori
N. MEYER
Données manquantes
Introduction
Définitions
Les méthodes d’analyse
Conclusion
La description des données
Après la description, l’analyse
Les méthodes sans modélisation
Imputation simple
L’algorithme EM
Imputation Multiple
Les méthodes dans les enquêtes
Une méthodes à part :
le hot deck
on remplace la valeur manquante par une valeur prise chez un
sujet similaire sur un certain nombre de variables
difficile en partique car impose une mesure de distance qui est
délicate à définir
biais et impact sur la puissance des analyses car diminution
des variances
N. MEYER
Données manquantes
Introduction
Définitions
Les méthodes d’analyse
Conclusion
La description des données
Après la description, l’analyse
Les méthodes sans modélisation
Imputation simple
L’algorithme EM
Imputation Multiple
Le (( worst case )) et ses variantes (1)
Une méthode facile à utiliser pour des variables catégorielles :
imputer les valeurs qui défavorisent (cliniquement) le résultat
attendu
soit à estimer une proportion p sur N sujets dont n sont
manquants
on peut attribuer l’une des modalités (VIH+) à tous les n
manquants et estimer p
exemple : VIH au Kenya : N = 787, n = 36, r+ = 52
on obtient par le (( worst case )) : p = 88/787
on peut faire un intervalle (( worst case - best case )) (ou le
contraire selon contexte) qui sert de point de départ à la
modélisation
N. MEYER
Données manquantes
Introduction
Définitions
Les méthodes d’analyse
Conclusion
La description des données
Après la description, l’analyse
Les méthodes sans modélisation
Imputation simple
L’algorithme EM
Imputation Multiple
Le (( worst case )) et ses variantes (2)
Variantes dans les essais thérapeutiques
on veut comparer l’effet de deux traitements sur un résultat
clinique
souvent la mesure d’intérêt est absente (décès, guérison car
perdu de vue ou autre)
l’estimation de l’effet du traitement est biaisé par les DM
on se met dans une situation défavorable au nouveau TMT
si la différence existe quand même, on peut valider le nouveau
traitement
N. MEYER
Données manquantes
Introduction
Définitions
Les méthodes d’analyse
Conclusion
La description des données
Après la description, l’analyse
Les méthodes sans modélisation
Imputation simple
L’algorithme EM
Imputation Multiple
20
40
60
80
100
All allocated to good
Extreme favouring A
0
Angioplasty: % of missing allocated to good outcome (n=30)
Etude de sensibilité : Shadish
All allocated to poor
0
20
Extreme favouring S
40
60
80
100
Stent: % of missing allocated to good outcome (n=24)
Significant difference (p<0.05)
No significant difference (p>0.05)
N. MEYER
Données manquantes
Introduction
Définitions
Les méthodes d’analyse
Conclusion
La description des données
Après la description, l’analyse
Les méthodes sans modélisation
Imputation simple
L’algorithme EM
Imputation Multiple
Méthode de Delucchi
Pour des données qualitatives : table 2 × 2
si on a m valeurs manquantes dans l’une des deux variables
on peut imputer les valeurs marginales de m + 1 manières
puis dans chaque cellules à partir de la marge
(m1. + 1) × (m2. + 1) possibilités
pour chacune des m + 1 combinaisons marginales
à partir desquelles on conclut
N. MEYER
Données manquantes
Introduction
Définitions
Les méthodes d’analyse
Conclusion
La description des données
Après la description, l’analyse
Les méthodes sans modélisation
Imputation simple
L’algorithme EM
Imputation Multiple
Solutions à part
littérature + + + ad hoc + + +
algorithme NIPALS : voir modèles PLS
qui suppose quand même des hypothèses fortes sur les DM
! ne pas avoir de DM ! !
N. MEYER
Données manquantes
Introduction
Définitions
Les méthodes d’analyse
Conclusion
La description des données
Après la description, l’analyse
Les méthodes sans modélisation
Imputation simple
L’algorithme EM
Imputation Multiple
L’algorithme EM
Principe (très général) :
Interdépendance entre paramétres θ et Ymqt
Ymqt contient de l’information utile pour estimer θ
et θ permet d’obtenir des valeurs pertinentes pour Ymqt
On remplit les manquants à partir d’une estimation de θ
puis on ré-estime θ à partir de Yobs et Ymqt
et on répéte jusqu’à convergence
N. MEYER
Données manquantes
Introduction
Définitions
Les méthodes d’analyse
Conclusion
La description des données
Après la description, l’analyse
Les méthodes sans modélisation
Imputation simple
L’algorithme EM
Imputation Multiple
L’algorithme EM
Les données complètes (i.e. obs + mqt) peuvent être mise sous la
forme suivante :
Pr (Y |θ) = Pr (Yobs |θ)Pr (Ymqt |Yobs , θ)
d’où :
L(θ|Y ) = L(θ|Yobs ) + log Pr (Ymqt |Yobs , θ) + c
avec : L(θ|Y ) = log Pr (Y |θ) vraisemblance des données
complètes
et : L(θ|Yobs ) = log Pr (Yobs |θ) vraisemblance des données
observées
Pr (Ymqt |Yobs , θ) : distrib. prédictive des DM sachant θ
fait le lien entre θ et les DM
N. MEYER
Données manquantes
Introduction
Définitions
Les méthodes d’analyse
Conclusion
La description des données
Après la description, l’analyse
Les méthodes sans modélisation
Imputation simple
L’algorithme EM
Imputation Multiple
L’algorithme EM
Soit θ(t) l’estimation courante de θ. Les estimations se font ensuite
en deux étapes :
E Expectation étape qui donne la log-vraisemblance
R
Q(θ|θ(t) ) = L(θ|Y )Pr (Ymqt |Yobs , θ = θ(t) )dYmqt
M Maximization étape qui détermine θ(t+1) en maximisant cette
log-vraisemblance
Q(θ(t+1) |θ(t) ) ≥ Q(θ|θ(t) )
N. MEYER
Données manquantes
Introduction
Définitions
Les méthodes d’analyse
Conclusion
La description des données
Après la description, l’analyse
Les méthodes sans modélisation
Imputation simple
L’algorithme EM
Imputation Multiple
L’algorithme EM
Un résultat de Dempster, Laird et Rubin (1977) montre que :
si θ(t+1) est la valeur de θ qui maximise Q(θ|θ(t) )
alors θ(t+1) est une meilleure estimation que θ(t)
car la vraisemblance des données observées pour θ(t+1) est au
moins aussi grande que celle pour θ(t)
L(θ(t+1) |Yobs ) ≥ L(θ(t) |Yobs )
N. MEYER
Données manquantes
Introduction
Définitions
Les méthodes d’analyse
Conclusion
La description des données
Après la description, l’analyse
Les méthodes sans modélisation
Imputation simple
L’algorithme EM
Imputation Multiple
L’algorithme EM : exemple
Illustré sur une table 2 × 2
on suppose deux variables Y1 et Y2 , variables dichotomiques
toutes les deux incomplètes
le tableau croisé des deux variables : distribution multinomiale
x = {x11 , x12 , x21 , x22 }
de paramètres : θ = {θ11 , θ12 , θ21 , θ22 }
avec θij proba qu’un sujet ait Y1 = i et Y2 = j
alors la vraisemblance s’écrit :
L(θ|x ) = x11 logθ11 + x12 logθ12 + x21 logθ21 + x22 logθ22
les MLE obtenus par : xij = nθij
N. MEYER
Données manquantes
Introduction
Définitions
Les méthodes d’analyse
Conclusion
La description des données
Après la description, l’analyse
Les méthodes sans modélisation
Imputation simple
L’algorithme EM
Imputation Multiple
L’algorithme EM : exemple
Soit la table suivante :
sujet
Y2 = 1
Y2 = 2
Y2 = mqt
Y1 = 1
Y1 = 2
A
x11
A
x21
A
x12
A
x22
B
x1+
B
x2+
Y1 = mqt
C
x+1
C
x+2
N. MEYER
Données manquantes
Introduction
Définitions
Les méthodes d’analyse
Conclusion
La description des données
Après la description, l’analyse
Les méthodes sans modélisation
Imputation simple
L’algorithme EM
Imputation Multiple
L’algorithme EM : exemple
Les deux étapes de l’algorithme :
étape E remplace les valeurs inconnues xijB et xijC par leur
espérance conditionnelles
E (xij |Yobs , θ) = E (xijA + xijB + xijC |Yobs , θ)
B θ /θ
C
= xijA + xi+
ij
i+ + x+j θij /θ+j
étape M θij = E (xij |Yobs , θ)/n
en combinant les deux étapes en une seule, on obtient :
(t) (t) θij
θij
(t+1)
−1
A
B
C
θij
=n
xij + xi+ (t) + x+j
(t)
θi+
N. MEYER
θ+j
Données manquantes
Introduction
Définitions
Les méthodes d’analyse
Conclusion
La description des données
Après la description, l’analyse
Les méthodes sans modélisation
Imputation simple
L’algorithme EM
Imputation Multiple
L’algorithme EM : exemple
Soit la table suivante :
sujet
Non victimes t2
Victimes t2
Non-réponses
Non victimes t1
Victimes t1
392
76
55
38
33
9
Non-réponses
31
7
N. MEYER
Données manquantes
Introduction
Définitions
Les méthodes d’analyse
Conclusion
La description des données
Après la description, l’analyse
Les méthodes sans modélisation
Imputation simple
L’algorithme EM
Imputation Multiple
L’algorithme EM : exemple
Itérations de l’EM :
(t)
(t)
(t)
(t)
t
θ11
θ12
θ21
θ22
0
1
...
4
5
0,2500
0,6615
...
0,6971
0,6971
0,2500
0,1170
...
0,0987
0,0987
0,2500
0,1498
...
0,1358
0,1358
0,2500
0,0718
...
0,0684
0,0685
∞
0,6971
0,0987
0,1358
0,0685
N. MEYER
Données manquantes
Introduction
Définitions
Les méthodes d’analyse
Conclusion
La description des données
Après la description, l’analyse
Les méthodes sans modélisation
Imputation simple
L’algorithme EM
Imputation Multiple
L’Imputation Multiple : la star !
Repris de JL Schafer :
Single-imputation strategies designed to precisely predict the
missing values tend to distort estimates of population
quantities
The goal of the missing-data procedure is to draw accurate
inferences about population quantities (e.g. mean change over
time), not to accurately predict the missing values
With imputation, the best way to achieve that goal is to
preserve all aspects of the data distribution (means, trends,
within- and between-subject variation, etc.)
Ad hoc imputation methods inevitably preserve some aspects
but distort others
N. MEYER
Données manquantes
Introduction
Définitions
Les méthodes d’analyse
Conclusion
La description des données
Après la description, l’analyse
Les méthodes sans modélisation
Imputation simple
L’algorithme EM
Imputation Multiple
L’Imputation Multiple : la star !
l’imputation simple est ... unique
la donnée imputée est considéré comme une donnée observée
ne tient pas compte de l’incertitude sup. liée aux manquants
d’où l’idée de faire plusieurs imputations différentes
on substitue plusieurs valeurs à chaque DM
on analyse en tenant compte de cette multiplicité
N. MEYER
Données manquantes
Introduction
Définitions
Les méthodes d’analyse
Conclusion
La description des données
Après la description, l’analyse
Les méthodes sans modélisation
Imputation simple
L’algorithme EM
Imputation Multiple
Les étapes d’une imputation multiple
on analyse la matrice des données pour en déduire un modèle
pour les DM
on réalise entre M = 3 et 10 imputations
pour obtenir 3 à 10 jeux de données complétés
on calcule le paramètre d’intérêt pour chaque jeu
on combine les M imputations pour avoir une inférence
qui tienne compte de l’incertitude supplémentaire liée aux DM
N. MEYER
Données manquantes
Introduction
Définitions
Les méthodes d’analyse
Conclusion
La description des données
Après la description, l’analyse
Les méthodes sans modélisation
Imputation simple
L’algorithme EM
Imputation Multiple
Formules pour l’IM
M estimations ponctuelles pour le vecteur de paramètre θ
Si gaussien, moyenne et écart-type :

(t)
¯

Q̂ (t) = Q̂(Yobs , Ymiss ), t = 1, . . . , m

et


(t)
Û (t) = Û (t) (Yobs , Ymiss ), t = 1, . . . , m
On calcule ensuite :
m
1 X (t)
¯
Q̂ =
Q̂
m t=1
N. MEYER
Données manquantes
La description des données
Après la description, l’analyse
Les méthodes sans modélisation
Imputation simple
L’algorithme EM
Imputation Multiple
Introduction
Définitions
Les méthodes d’analyse
Conclusion
Formules pour l’IM (suite)
La Var. globale a deux composantes :
(1) variance intra-imputation
Ū =
m
1 X (t)
U
m t=1
(2) La variance inter-imputation vaut :
m
1 X ¯ (t)
B=
(Q̂ − Q̄)2
m − 1 t=1
La variance totale vaut :
T = Ū + (1 + m −1 )B
N. MEYER
Données manquantes
Introduction
Définitions
Les méthodes d’analyse
Conclusion
La description des données
Après la description, l’analyse
Les méthodes sans modélisation
Imputation simple
L’algorithme EM
Imputation Multiple
Formules pour l’IM (suite)
À partir de ces équations, on peut réaliser des tests :
Q − Q̄
√
; tν
T2
avec :
ν = (m − 1) 1 +
Ū
(1 + m −1 )B
2
→ intervalles de confiances.
Ces statistiques tiennent compte de l’incertitude suppl. liées aux
DM.
N. MEYER
Données manquantes
Introduction
Définitions
Les méthodes d’analyse
Conclusion
La description des données
Après la description, l’analyse
Les méthodes sans modélisation
Imputation simple
L’algorithme EM
Imputation Multiple
Un exemple simple
Exemple : voir feuille Excel
N. MEYER
Données manquantes
Introduction
Définitions
Les méthodes d’analyse
Conclusion
La description des données
Après la description, l’analyse
Les méthodes sans modélisation
Imputation simple
L’algorithme EM
Imputation Multiple
Obtention des imputations
Pour faire de l’IM, il faut générer les valeurs simulées :
à partir de la distribution a posteriori des valeurs de Ymqt
on définit donc un modèle pour les manquants
en analysant la matrice R
et en simulant en général sous un modèle multinormal
on tire m valeur de Pr(Ymqt |Yobs )
Z
Pr(Ymqt |Yobs ) = Pr(Ymqt |Yobs , θ)Pr (θ|Yobs )d θ
soit distribution prédictive de Ymqt sachant θ moyenné sur la
distribution a posteriori de θ
ce qui reflète l’incertitude sur Ymqt sachant les paramètres du
modèle des données complètes.
N. MEYER
Données manquantes
Introduction
Définitions
Les méthodes d’analyse
Conclusion
La description des données
Après la description, l’analyse
Les méthodes sans modélisation
Imputation simple
L’algorithme EM
Imputation Multiple
Obtention des imputations
Autre méthode, sur des variables quantitatives (( approximate
bayesian bootstrap )) :
rég. logistique pour prédire si X est manquant ou pas
calculer proba de manquer = propensity score
on trie par prop. score puis quintiles
dans chaque quintile, r cas complets et m mqt
parmi les r complets, on tire avec remise un éch. aléatoire de
taille r
pour chaque mqt, on tire avec remise une valeur dans l’éch.
précédent
dernière étape répétée M fois puis combinaison des M
paramètres
N. MEYER
Données manquantes
Introduction
Définitions
Les méthodes d’analyse
Conclusion
La description des données
Après la description, l’analyse
Les méthodes sans modélisation
Imputation simple
L’algorithme EM
Imputation Multiple
L’IM : avantages
souple + +
donne des résultats valides
robuste aux écarts de spécification du modèle
M peut être faible : 3, 5, pas plus de 10.
N. MEYER
Données manquantes
Introduction
Définitions
Les méthodes d’analyse
Conclusion
La description des données
Après la description, l’analyse
Les méthodes sans modélisation
Imputation simple
L’algorithme EM
Imputation Multiple
L’IM : inconvénients (limités)
⇒ le recours à des logiciels
repose sur le modèle (mais les autres méthodes aussi)
si les effectifs sont faibles → variantes particulières
Par ailleurs
aspects bayésiens → utiliser WinBUGS
N. MEYER
Données manquantes
Introduction
Définitions
Les méthodes d’analyse
Conclusion
La description des données
Après la description, l’analyse
Les méthodes sans modélisation
Imputation simple
L’algorithme EM
Imputation Multiple
l’IM par MICE (1)
MICE : Multiple Imputation Chained Equation
également le nom d’un package R.
récent : 2000
obtention des imputations par le chainage d’équation
N. MEYER
Données manquantes
Introduction
Définitions
Les méthodes d’analyse
Conclusion
La description des données
Après la description, l’analyse
Les méthodes sans modélisation
Imputation simple
L’algorithme EM
Imputation Multiple
l’IM par MICE (2)
Principe de la méthode :
soit une matrice X de taile n × p, avec m valeurs
manquantes, et j variables incomplètes
on impute chaque valeur manquante des j variables
incomplètes une fois à partir des données observées
on prend une première variable dont on retire les valeurs
imputées
(donc on reprend la variable dans son état initial, incomplètes)
on impute les valeurs manquantes à partir des autres variables
complétées
on passe à la variable suivante : on prédit les valeurs
incomplètes à partir des autres
on fait un tour complet sur l’ensemble des variables
incomplètes
N. MEYER
Données M
manquantes
on procède à M tours
pour obtenir
jeux de données
Introduction
Définitions
Les méthodes d’analyse
Conclusion
La description des données
Après la description, l’analyse
Les méthodes sans modélisation
Imputation simple
L’algorithme EM
Imputation Multiple
l’IM par MICE (3)
Avantages et limites de la méthode
facile à faire
gère tous les types de données dans un même (( modèle ))
plus facile à faire sur de très grand jeux de données que IM
classique
peu de fondements théoriques
convergence non assurée
mais empiriquement efficace
N. MEYER
Données manquantes
Introduction
Définitions
Les méthodes d’analyse
Conclusion
La description des données
Après la description, l’analyse
Les méthodes sans modélisation
Imputation simple
L’algorithme EM
Imputation Multiple
Retour sur les MNAR
Si les données sont MNAR :
implique de modéliser le mécanisme des manquants pour avoir
une bonne estimation des paramètres
implique des hypothèses fortes et non vérifiables sur le
mécanisme
or souvent on peut raisonnablement suspecter MNAR
on peut les modèliser mais complexe, au cas par cas
et ne peuvent que difficilement être testé (dépend du
contexte)
donc pas de méthode générale possible type IM
N. MEYER
Données manquantes
Introduction
Définitions
Les méthodes d’analyse
Conclusion
La description des données
Après la description, l’analyse
Les méthodes sans modélisation
Imputation simple
L’algorithme EM
Imputation Multiple
Une méthode à part : l’algorithme NIPALS
Crée dans les années 1960 pour l’ACP
a la particularité de pouvoir fournir les composantes de l’ACP
si l’on travaille sur les données complète
fournit un résultat si données incomplètes
sans
sans
sans
sans
supprimer de sujets
supprimer de variable
estimer les données manquantes !
imputation !
peut être utilisé à l’envers pour estimer ou imputer les DM
N. MEYER
Données manquantes
Introduction
Définitions
Les méthodes d’analyse
Conclusion
La description des données
Après la description, l’analyse
Les méthodes sans modélisation
Imputation simple
L’algorithme EM
Imputation Multiple
Une méthode à part : l’algorithme NIPALS
Algorithme itératif, utilisable en régression
soit y et X, centrée réduite
on ajuste de manière itérative y = aXj + ε
faisable sur données incomplètes
puis construction de composantes
normer le vecteur a1 : w1 = a1 /ka1 k.
calculer la composante t1 = 1/(t w1 w1 )Xw1 .
itération → h
exprimer la composante th en termes de prédicteurs X :
th = Xwh∗ .
N. MEYER
Données manquantes
Introduction
Définitions
Les méthodes d’analyse
Conclusion
La description des données
Après la description, l’analyse
Les méthodes sans modélisation
Imputation simple
L’algorithme EM
Imputation Multiple
Une autre méthode à part : les modèles mixtes
Créés pour analyser des données longitudinales ou multi-niveaux,
répétées etc.
permet de travailler sur des données incomplètes
et avec des sujets n’ayant qu’une valeur sur j
supprime quand même les sujets n’ayant que des données
manquantes
N. MEYER
Données manquantes
Introduction
Définitions
Les méthodes d’analyse
Conclusion
La description des données
Après la description, l’analyse
Les méthodes sans modélisation
Imputation simple
L’algorithme EM
Imputation Multiple
une autre question : Y ou X ?
Les problèmes de DM se posent surtout lorsque X est
incomplet
Lorsque Y est incomplet → estimer Yi à partir du modèle
Donc le problème est moins grave mais il existe quand même
S’écrit naturellement dans WinBUGS (en fait il est inutile de
l’écrire !)
Problème sérieux dans le domaine médical ou le problème
n’est pas que statistique !
N. MEYER
Données manquantes
Introduction
Définitions
Les méthodes d’analyse
Conclusion
La description des données
Après la description, l’analyse
Les méthodes sans modélisation
Imputation simple
L’algorithme EM
Imputation Multiple
La solution bayésienne
Les données manquantes sont issues d’une distribution a priori
souplesse + + +
⇒ faire des hypothèses sur les DM
mais toute les méthodes en font
similitudes avec les données aberrantes
voir exemple de prog. Bugs
N. MEYER
Données manquantes
Introduction
Définitions
Les méthodes d’analyse
Conclusion
La description des données
Après la description, l’analyse
Les méthodes sans modélisation
Imputation simple
L’algorithme EM
Imputation Multiple
Les logiciels
MINITAB : rien pour les DM
SPSS : module mais pas dans la base
SAS : différentes fonctions + PROC MI
S+ / R : CAT,MIX, NORM
A part : SIMCA : cartographie des manquants / R
WinBUGS
N. MEYER
Données manquantes
Introduction
Définitions
Les méthodes d’analyse
Conclusion
La description des données
Après la description, l’analyse
Les méthodes sans modélisation
Imputation simple
L’algorithme EM
Imputation Multiple
Les packages de R
on trouve dans R plusieurs package qui gèrent plus ou moins les
données manquantes :
mitools fait de l’IM
mice imputation multivariée par équations en chaines
mvnmle estimation du max. vrais. pour des données
gaussiennes multivariées
norm IM pour données continues par EM et data
augmentation
cat IM pour données catégorielles par EM, data augmentation
et simulations de paramètre
mix la même chose pour mélange de qualitatives et
quantitative
pan IM pour données longitudinales
ameliaII pour les sondages, les séries chronologiques,
N. MEYER
Données manquantes
Introduction
Définitions
Les méthodes d’analyse
Conclusion
La description des données
Après la description, l’analyse
Les méthodes sans modélisation
Imputation simple
L’algorithme EM
Imputation Multiple
Package Hmisc
dans le package Hmisc :
na.delete Row-wise Deletion na.action
na.detail.response Detailed Response Variable Information
na.keep Do-nothing na.action
na.pattern Variable Clustering
na.retain Summarize Data for Making Tables and Plots
naclus Variable Clustering
naplot Variable Clustering
N. MEYER
Données manquantes
Introduction
Définitions
Les méthodes d’analyse
Conclusion
La description des données
Après la description, l’analyse
Les méthodes sans modélisation
Imputation simple
L’algorithme EM
Imputation Multiple
Le package Hmisc : suite
aregImpute() Multiple Imputation using Additive Regression,
Bootstrapping, and Predictive Mean Matching
transcan() Transformations/Imputations using Canonical
Variates
arrayImpute Missing imputation for microarray data
arrayMissPattern Exploratory analysis of Missing patterns for
microarray data
EMV Estimation of Missing Values for a Data Matrix
mlmmm ML estimation under multivariate linear mixed
models with missing values
monomvn Estimation for multivariate normal data with
monotone missingness
NestedCohort Survival Analysis for Cohorts with Missing
Covariate Information
N. MEYER
Données manquantes
Introduction
Définitions
Les méthodes d’analyse
Conclusion
Conclusion
DM : un vrai problème sans (( vraie )) solution (pratique)
il faut toujours faire des hypothèses
ou faire une étude de sensibilité
qui ne conclut pas
le mieux : IM
encore mieux : bayésien
encore encore mieux : ne pas avoir de DM
N. MEYER
Données manquantes
Introduction
Définitions
Les méthodes d’analyse
Conclusion
Les ouvrages de références
Little RJA, Rubin DB : Statistical analysis with missing data,
2nd edition. John Wiley & Sons, New York 2002. Edition
récente : IM ++
Schafer JL. Analysis of Incomplete Multivariate Data
Chapman & Hall CRC 1997.
Allison PD. Missing Data Thousand Oaks, CA : Sage. 2002.
N. MEYER
Données manquantes