cours données manquantes

publicité
Les données manquantes en bio-statistique
Pr N. MEYER
Laboratoire de Biostatistique - Faculté de Médecine
Dép. Santé Publique CHU - STRASBOURG
Master Statistiques et Applications
—
10 mars 2011
N. MEYER
Données manquantes
Introduction
Définitions
Les méthodes d’analyse
Conclusion
Importance du problème
Les données
Toute étude ⇒ recueillir des données
Les variables sont qualitatives ou quantitatives
La plannification de l’étude ⇒ on espère recueillir toutes les
données nécessaires
= Toutes les données pour toutes les variables pour tous les
sujets
N. MEYER
Données manquantes
Introduction
Définitions
Les méthodes d’analyse
Conclusion
Importance du problème
Les données manquantes
Données manquantes (DM) : données que l’on voulait
recueillir mais qui ne l’ont pas été.
Données qui devaient être recueillies mais dont la vraie valeur
est inconnue
Exemples :
sujet qui ne répond qu’à certaines questions d’un sondage
absence de réponse à l’une des vagues d’une enquête
longitudinale
DM sont très fréquentes : 95% des jeux de données sont
incomplets (au moins une DM)
Prévalence plus ou moins importante : de quelques unes à plus
de 50% de DM
Semblent pratiquement inévitables
N. MEYER
Données manquantes
Introduction
Définitions
Les méthodes d’analyse
Conclusion
Classification méthodologique des DM
Impact des données manquantes
Effet des manquants
Classification de Little et Rubin
Donnée manquante
Définition :
Soit une variable aléatoire X quelconque. Une DM xm est une
donnée pour laquelle la valeur X = x est inconnue. On ne dispose
pas de la valeur de X pour le sujet i .
N. MEYER
Données manquantes
Introduction
Définitions
Les méthodes d’analyse
Conclusion
Classification méthodologique des DM
Impact des données manquantes
Effet des manquants
Classification de Little et Rubin
Classification méthodologique des DM
Origine matérielle des DM :
La valeur de xi n’a pas été mesurée (oubli...)
la valeur : mesurée mais perdue ou non notée
la valeur : mesurée, notée, mais considérée comme non
utilisable : donnée jugée aberrante / erreur manifeste
la donnée : mesurée mais pas disponible : (( Ne Sait Pas ))
idem : cas particuliers de données censurées.
N. MEYER
Données manquantes
Introduction
Définitions
Les méthodes d’analyse
Conclusion
Classification méthodologique des DM
Impact des données manquantes
Effet des manquants
Classification de Little et Rubin
Classification méthodologique des DM
Des cas particuliers où la donnée est mesurée mais n’est pas
disponible → donnée connue partiellement mais pas totalement
manquante
censure (1) : la valeur < ou > limites de détection de l’outil
HIV : nombre de copies du virus sous la limite de détection
D-dimères : si > 20000 : 20000 et la vraie valeur est inconnue
censure (2) : des études de survie
durée de survie : supérieure à une durée d
données (( non encore manquantes )) : indice CAO → si dent
non sortie, CAO sur ensemble incomplet
distinguer la DM et le zéro d’échantillonage
N. MEYER
Données manquantes
Introduction
Définitions
Les méthodes d’analyse
Conclusion
Classification méthodologique des DM
Impact des données manquantes
Effet des manquants
Classification de Little et Rubin
Classification par rapport à l’unité statistique
La donnée est manquante en raison de :
non réponse de l’unité statistique : aucune mesure n’est
obtenue pour l’unité statistique
non réponse pour l’item : seule manque la mesure sur la
variable X considérée.
en général, DM non intentionnellement (tous les cas
précédent)
manquant intentionnel : sondage par bloc de variable
→ problème du data matching
N. MEYER
Données manquantes
Introduction
Définitions
Les méthodes d’analyse
Conclusion
Classification méthodologique des DM
Impact des données manquantes
Effet des manquants
Classification de Little et Rubin
Les DM d’un point de vue statistique
En analysant des données incomplètes, on souhaite avoir des
résultats valides malgré les DM
Valides : i.e. p-valeurs, intervalles de confiances et estimations
ponctuelles (moyenne, variance, proportions, paramètres de
régression, etc) correctes ou encore des distributions
a posteriori correctes
Ceci n’est possible que dans des conditions assez restrictives.
La plupart du temps, il faut faire des hypothèses que l’on ne
peut pas vérifier.
N. MEYER
Données manquantes
Introduction
Définitions
Les méthodes d’analyse
Conclusion
Classification méthodologique des DM
Impact des données manquantes
Effet des manquants
Classification de Little et Rubin
Les DM d’un point de vue statistique
Ceci implique le mécanisme aboutissant à une DM : le
mécanisme des manquants et si ce mécanisme dépend d’autre
variables (mesurées ou non). Ce mécanisme des manquants
est généralement inconnu d’un point de vue pratique
mais il existe une classification théorique
⇒ Classification statistique des données manquantes (Little &
Rubin)
⇒ Important : Diffèrentes situations → diffèrentes méthodes
statistiques
N. MEYER
Données manquantes
Introduction
Définitions
Les méthodes d’analyse
Conclusion
Classification méthodologique des DM
Impact des données manquantes
Effet des manquants
Classification de Little et Rubin
Un exemple sur une variable
variable X , n-échantillon dont m valeurs manquantes
& taille de l’échantillon de n à n − m = np , de m/n %
on peut estimer m̄ et s 2 sur les n − m présents
valide que si np valeurs : sous-échantillon aléatoire des n
le fait d’être manquant ne dépend pas de la valeur
(manquante)
Pr(xi : ∗) = p, ∀i .
sinon il y a un biais
N. MEYER
Données manquantes
Introduction
Définitions
Les méthodes d’analyse
Conclusion
Classification méthodologique des DM
Impact des données manquantes
Effet des manquants
Classification de Little et Rubin
Effet des manquants : Un exemple (1)
Biais et Perte de Puissance
on tire 1000 valeurs d’une v.a. gaussienne centrée réduite
on vérifie sa moyenne et sa variance et on trace l’histogramme
des valeurs
on supprime aléatoirement 250 valeurs sur l’ensemble des
valeurs du vecteur
on vérifie que la moyenne et la variance du sous-échantillon
sont proches des valeurs de l’échantillon de départ
N. MEYER
Données manquantes
Introduction
Définitions
Les méthodes d’analyse
Conclusion
Classification méthodologique des DM
Impact des données manquantes
Effet des manquants
Classification de Little et Rubin
Effet des manquants : Un exemple (2)
On retire ensuite des valeurs surtout dans les valeurs basses de
l’échantillon : on retire 225 valeurs parmi les valeurs basses et
25 parmi les valeurs hautes.
on calcule la moyenne et la variance de l’échantillon et on
trace son histogramme. On vérifie que les estimations des
paramètres sont biaisés.
N. MEYER
Données manquantes
Introduction
Définitions
Les méthodes d’analyse
Conclusion
Classification méthodologique des DM
Impact des données manquantes
Effet des manquants
Classification de Little et Rubin
Autres exemple
Voir simulations sur R. modifications des paramètres selon les
manquants.
N. MEYER
Données manquantes
Introduction
Définitions
Les méthodes d’analyse
Conclusion
Classification méthodologique des DM
Impact des données manquantes
Effet des manquants
Classification de Little et Rubin
la forme de la distribution obervée sur les données complètes
n’est pas forcément la forme de la distribution complète.
en présence de données manquantes : biais ? importance ?
la distribution observée sur le sous-échantillon complet est-elle
représentative de la forme de la distribution dans la
population ?
si on observe une distribution asymétrique, est-elle
asymétrique ou bien le mécanisme des manquants est
non-aléatoire ?
N. MEYER
Données manquantes
Introduction
Définitions
Les méthodes d’analyse
Conclusion
Classification méthodologique des DM
Impact des données manquantes
Effet des manquants
Classification de Little et Rubin
si les DM sont manquantes aléatoirement : le mécanisme est
(( ignorable ))
si les DM sont manquantes non aléatoirement (i.e. si la proba
que xi soit manquant dépend de la valeur de xi , le mécanisme
n’est pas (( ignorable )), et les analyses sur le sous-échantillon
sont sujettes à biais.
si censure complète au dela d’un seuil, par exemple 0 :
Pr(Ri = 1|yi ) = Pr(yi obs|yi ) = 1 si yi < 0, 0 sinon.
N. MEYER
Données manquantes
Introduction
Définitions
Les méthodes d’analyse
Conclusion
Classification méthodologique des DM
Impact des données manquantes
Effet des manquants
Classification de Little et Rubin
Classification des manquants
Classification introduite par Little et Rubin (1976, Biometrika) ;
encore appelé (( distribution of missingness ))
Pr(ri |xi ; yi ; φ) : Probabilité que xi soit manquant
introduit non pas pour le modèliser
car en général l’information est insuffisante pour le modèliser
correctement
mais pour savoir dans quelle conditions on peut l’ignorer
N. MEYER
Données manquantes
Introduction
Définitions
Les méthodes d’analyse
Conclusion
Classification méthodologique des DM
Impact des données manquantes
Effet des manquants
Classification de Little et Rubin
Classification des manquants
Situation bivariée : les éléments
Soit deux V.A. X et Y , n réalisations.
X est complètement observée
Y comporte des valeurs manquantes
les deux V.A. X et Y soit qualitative(s) soit quantitative(s)
sans perte de généralité.
N. MEYER
Données manquantes
Introduction
Définitions
Les méthodes d’analyse
Conclusion
Classification méthodologique des DM
Impact des données manquantes
Effet des manquants
Classification de Little et Rubin
Situation bivariée
sujet
X
Y
1
...
ii
...
i +1
...
n
x1
...
xi
...
xi+1
...
xn
y1
...
yi
...
*
...
*
Tab.: Classification de Little & Rubin
N. MEYER
Données manquantes
Introduction
Définitions
Les méthodes d’analyse
Conclusion
Classification méthodologique des DM
Impact des données manquantes
Effet des manquants
Classification de Little et Rubin
Les trois cas possibles
(1) La probabilité d’avoir une valeur manquante est indépendante
de X et de Y
Pr (D : Mqt|obs, mqt) = Pr (D : Mqt)
(2) La probabilité d’avoir une valeur manquante dépend de X
mais pas de Y
Pr (D : Mqt|obs, mqt) = Pr (D : Mqt|obs)
(3) La probabilité d’avoir une valeur manquante dépend de X et
de Y
Pr (D : Mqt|obs, mqt) = Pr (D : Mqt|obs, mqt)
N. MEYER
Données manquantes
Introduction
Définitions
Les méthodes d’analyse
Conclusion
Classification méthodologique des DM
Impact des données manquantes
Effet des manquants
Classification de Little et Rubin
Les trois cas possibles
soit Y = {Yij } un jeu de données composé de deux parties :
Y = (Yobs , Ymqt )
soit une indicatrice Rij telle que Rij = 1 si Yij est manquant
et Rij = 0 sinon
le mécanisme des manquants est spécifié par un modèle pour
la probabilité de réponse :
Pr(R = r |Y = y, θ) = fR/Y (r |yobs , ymqt , θ)
le mécanisme est donc la distribution de R sachant Y .
N. MEYER
Données manquantes
Introduction
Définitions
Les méthodes d’analyse
Conclusion
Classification méthodologique des DM
Impact des données manquantes
Effet des manquants
Classification de Little et Rubin
Les trois cas possibles
(1) La situation MCAR : R et Y sont indépendant, la distribution
de R ne dépend pas des données
fR/Y (r |yobs , ymqt , θ) = fR (r |θ)
(2) Situation MAR : la connaissance de Ymiss ne donne pas
d’information supplémentaire sur R si Yobs est déjà connu. La
distribution de R ne dépend pas des manquants
fR/Y (r |yobs , ymqt , θ) = fR (r |yobs , θ)
(3) La distribution de R dépend de la valeur (inconnue) des
manquants
fR/Y (r |yobs , ymqt , θ) = fR (r |yobs , ymqt , θ)
N. MEYER
Données manquantes
Introduction
Définitions
Les méthodes d’analyse
Conclusion
Classification méthodologique des DM
Impact des données manquantes
Effet des manquants
Classification de Little et Rubin
Premier cas : MCAR
La probabilité d’avoir une valeur manquante est indépendante de
X et de Y
les valeurs manquantes sont Manquantes Aléatoirement
Missing at random : MAR
les données observées sont Observées Aléatoirement
Observed at random : OAR
,→ les données sont manquantes complétement aléatoirement
Missing Completely at Random : MCAR
les valeurs Y observées : sous-échantillon aléatoire de Y
N. MEYER
Données manquantes
Introduction
Définitions
Les méthodes d’analyse
Conclusion
Classification méthodologique des DM
Impact des données manquantes
Effet des manquants
Classification de Little et Rubin
1.0
x
x
x
x
0.0
0.5
x
x
−0.5
Y : categorical variable
1.5
MCAR : Missing Completely At Random
0.0
0.2
0.4
0.6
0.8
X : continuous variable
N. MEYER
Données manquantes
1.0
Introduction
Définitions
Les méthodes d’analyse
Conclusion
Classification méthodologique des DM
Impact des données manquantes
Effet des manquants
Classification de Little et Rubin
Deuxième cas : MAR
La probabilité d’avoir une valeur manquante dépend de X mais pas
de Y
on dit que le données sont manquantes aléatoirement
Missing at Random : MAR
les valeurs observées de Y ne sont pas forcément un
sous-échantillon aléatoire des valeurs échantillonnées de Y
mais elles sont un sous-échantillon aléatoire de Y dans des
sous-classes définies par les valeurs de X .
N. MEYER
Données manquantes
Introduction
Définitions
Les méthodes d’analyse
Conclusion
Classification méthodologique des DM
Impact des données manquantes
Effet des manquants
Classification de Little et Rubin
1.5
MAR : Missing At Random
xxxx
0.5
x
x
x
xxx x
−0.5
0.0
Y : categorical variable
1.0
x
0.0
0.2
0.4
0.6
0.8
1.0
X : continuous variable
Yobs est un sous-échantillon aléatoire / représentatif de Y dans
des catégories de X .
N. MEYER
Données manquantes
Introduction
Définitions
Les méthodes d’analyse
Conclusion
Classification méthodologique des DM
Impact des données manquantes
Effet des manquants
Classification de Little et Rubin
1.5
MAR : Missing At Random
xxxx
0.5
x
x
x
xxx x
−0.5
0.0
Y : categorical variable
1.0
x
0.0
0.2
0.4
0.6
0.8
1.0
X : continuous variable
Yobs est un sous-échantillon aléatoire / représentatif de Y dans
des catégories de X .
N. MEYER
Données manquantes
Introduction
Définitions
Les méthodes d’analyse
Conclusion
Classification méthodologique des DM
Impact des données manquantes
Effet des manquants
Classification de Little et Rubin
Troisième cas : MNAR
La probabilité d’avoir une valeur manquante dépend de X et de Y
les valeurs ne sont ni manquantes aléatoirement (non MAR)
ni obervées aléatoirement (non OAR)
les données sont manquantes non aléatoires : M Not AR
(MNAR)
N. MEYER
Données manquantes
Introduction
Définitions
Les méthodes d’analyse
Conclusion
Classification méthodologique des DM
Impact des données manquantes
Effet des manquants
Classification de Little et Rubin
x
x
0.5
1.0
x
0.0
xxxxxx
−0.5
Y : categorical variable
1.5
MNAR : Missing Not At Random
0.0
0.2
0.4
0.6
0.8
X : continuous variable
N. MEYER
Données manquantes
1.0
Introduction
Définitions
Les méthodes d’analyse
Conclusion
Classification méthodologique des DM
Impact des données manquantes
Effet des manquants
Classification de Little et Rubin
Conséquences
Si MCAR et MAR le mécanisme des manquants peut être
ignoré pour les méthodes d’inférence basées sur la
vraisemblance
Dans le cas MCAR, le mécanisme peut-être ignoré à la fois
pour les approches basées sur la vraisemblance et pour les
approches basées sur l’échantillonage
Dans le cas MNAR le mécanisme ne peut pas être ignoré
N. MEYER
Données manquantes
Introduction
Définitions
Les méthodes d’analyse
Conclusion
Classification méthodologique des DM
Impact des données manquantes
Effet des manquants
Classification de Little et Rubin
Quelques exemples
le café sur la feuille de relevé
la panne d’appareil de mesure
le dosage impossible pour raisons liées au sujet
coagulation du tube de sang avant dosage
si dosage lié à un trouble de la coagulation : MNAR
si dosage autre : MCAR
dossier médical incomplet
N. MEYER
Données manquantes
Introduction
Définitions
Les méthodes d’analyse
Conclusion
Classification méthodologique des DM
Impact des données manquantes
Effet des manquants
Classification de Little et Rubin
Quelques exemples
les aidants des personnes âgées dépendantes, pour savoir si la
personne aidée représente une charge, la présence d’une
réponse dépend de la valeur de la réponse
consommation d’alcool est souvent d’autant plus minimisée
que cette consommation est forte
dans les dossiers médicaux, la probabilité qu’un symptome
négatif soit noté est plus faible que la probabilité qu’un
symptôme positif soit noté.
N. MEYER
Données manquantes
Introduction
Définitions
Les méthodes d’analyse
Conclusion
Classification méthodologique des DM
Impact des données manquantes
Effet des manquants
Classification de Little et Rubin
Quelques exemples (2)
Soit deux V.A. continues, une est sujette à non-réponse. La
variable X complètement observée est l’âge et la variable Y
incomplètement observée est le revenu
Si la probabilité que le revenu soit manquant est indépendante
de l’âge et du revenu du sujet, alors les données sont de type
MCAR (OAR + MAR).
Si la probabilité que le revenu soit manquant dépend de l’âge
de la personne interrogée mais pas de son revenu, alors les
DM sont manquantes aléatoirement (ne dépendent pas du
revenu) mais elles ne sont pas observées aléatoirement
(dépendent de l’âge) : elles sont donc de type MAR
N. MEYER
Données manquantes
Introduction
Définitions
Les méthodes d’analyse
Conclusion
Classification méthodologique des DM
Impact des données manquantes
Effet des manquants
Classification de Little et Rubin
Quelques exemples (3)
Si la probabilité que le revenu soit manquant dépend de l’âge
de la personne et de son revenu, les DM ne sont pas
manquantes aléatoirement (dépendent du revenu) et ne sont
pas observées aléatoirement (dépendent de l’âge) : elles sont
donc de type MNAR.
N. MEYER
Données manquantes
Introduction
Définitions
Les méthodes d’analyse
Conclusion
Classification méthodologique des DM
Impact des données manquantes
Effet des manquants
Classification de Little et Rubin
Quelques exemples (4)
un animal meurt au décours d’une expérience avant le recueil
de y
ex. application de goudron sur la peau d’un rat : test cutané du
pouvoir cancérigène
cause du décès ?
mort naturelle ?
passage transcutané de constituant du goudron ?
et donc toxicité (cardiaque, autre) du goudron ?
lien avec les analyses de survie
N. MEYER
Données manquantes
Introduction
Définitions
Les méthodes d’analyse
Conclusion
Classification méthodologique des DM
Impact des données manquantes
Effet des manquants
Classification de Little et Rubin
Quelques exemples (5)
Études longitudinales
cas de la survie et de la censure
le sujet quitte l’étude
décès ? lié à l’étude ?
étude longitudinale
le sujet ne se présente pas à la visite vi , i < imax
le sujet ne se présente pas aux visites vi et suivante
décès ? lié à l’étude ?
N. MEYER
Données manquantes
Introduction
Définitions
Les méthodes d’analyse
Conclusion
Classification méthodologique des DM
Impact des données manquantes
Effet des manquants
Classification de Little et Rubin
L’intérêt de cette classification
Prendre en compte le mécanisme des manquants dans
l’analyse
Si on s’intéresse uniquement à la distribution marginale de X
(l’âge), les données de Y et le mécanisme des manquants n’a
aucune importance
Si on souhaite avoir une estimation conditionnelle de la valeur
de Y sachant X (par exemple la répartition des revenus en
fonction de l’âge), alors l’analyse sur les n − m valeurs
complètes est satisfaisante si les données sont MAR ou si elles
sont MCAR
Si on s’intéresse à la distribution marginale de Y (moyenne
des revenus), alors une analyse basée sur les unités complètes
est biaisée sauf si les données sont de type MCAR.
N. MEYER
Données manquantes
Introduction
Définitions
Les méthodes d’analyse
Conclusion
Classification méthodologique des DM
Impact des données manquantes
Effet des manquants
Classification de Little et Rubin
Si données MNAR, les estimations portant sur la distribution
marginale de Y et sur la distribution conditionnelle de Y sachant
X sont biaisées et nécessitent une modélisation des valeurs
manquantes
Dans les autres cas, la modélisation n’est pas nécessaire même si
des méthodes adaptées à l’analyse statistique en présence de DM
doivent être utilisées.
N. MEYER
Données manquantes
Introduction
Définitions
Les méthodes d’analyse
Conclusion
Classification méthodologique des DM
Impact des données manquantes
Effet des manquants
Classification de Little et Rubin
reprendre les exemples sur l’impact des manquants dans R.
N. MEYER
Données manquantes
Introduction
Définitions
Les méthodes d’analyse
Conclusion
Classification méthodologique des DM
Impact des données manquantes
Effet des manquants
Classification de Little et Rubin
Commentaires
Le problème principal est que lorsque l’on a des données
incomplètes, il est très difficile de savoir quelle est la vraie
distribution des données et donc de savoir quel est le mécanisme
des manquants ou au moins lequel est le plus probable ! Il y a une
part d’avis subjectif dans le choix mais ce peut-être un avis éclairé !
N. MEYER
Données manquantes
Introduction
Définitions
Les méthodes d’analyse
Conclusion
Classification méthodologique des DM
Impact des données manquantes
Effet des manquants
Classification de Little et Rubin
Pertinence de cette classification
Permet de prendre en compte le mécanisme des manquants
lors de l’analyse
Si on l’intéresse à la distribution marginale des revenus, les
résultats sont biaisés sauf si les données sont MCAR
Si l’on s’intéresse à la distribution conditionnelle du revenu en
fonction de l’âge, c.-à-d. pour des classes d’âges données, une
analyse basée sur les unités statistiques complètes est
satisfaisante si les DM sont MAR
Si les DM sont MNAR, les estimations basées sur la
distribution marginale du revenu ou sur la distribution
conditionnelle du revenu selon l’âge sont biaisées et nécessite
une modèlisation explicite des MD.
N. MEYER
Données manquantes
Introduction
Définitions
Les méthodes d’analyse
Conclusion
Classification méthodologique des DM
Impact des données manquantes
Effet des manquants
Classification de Little et Rubin
DM et données longitudinales
Dans le cas de données longitudinales (rappel), la classification est
modifiée (voir Schafer).
MCAR le mécanisme ne dépend ni des covariables xi ni de Y
Pr(ri |xi ; yi ; φ) = Pr(ri |φ)
CD Covariate-dependent (CD) missingness : le mécanisme peut
dépendre de xi mais pas de Y : Pr(ri |xi ; yi ; φ) = Pr(ri |xi ; φ)
MAR le mécanisme peut dépendre des cov. xi et des Y observés :
Pr(ri |xi ; yi ; φ) = Pr(ri |xi ; yi(obs) ; φ)
MNAR tous les autres cas : le mécanisme dépend encore de ymqt
même après prise en compte des xi , et des yobs .
N. MEYER
Données manquantes
Introduction
Définitions
Les méthodes d’analyse
Conclusion
Classification méthodologique des DM
Impact des données manquantes
Effet des manquants
Classification de Little et Rubin
DM et données longitudinales
En cas de sortie d’étude (avant fin de suivi), signification :
MCAR la Pr. de sortie ne dépend pas des caractéristiques du sujets
CD la Pr. de sortie peut être liée à des covariables mais pas à la
mesure d’intérêt
MAR la Pr. de sortie peut être liée à des covariables et la valeur de
la mesure d’intérêt avant la sortie d’étude
MNAR la Pr. de sortie peut être liée à la mesure d’intérêt au moment
de la sortie et parfois à la mesure après la sortie de l’étude :
cas souvent crédible
N. MEYER
Données manquantes
Introduction
Définitions
Les méthodes d’analyse
Conclusion
Classification méthodologique des DM
Impact des données manquantes
Effet des manquants
Classification de Little et Rubin
DM et données longitudinales
Que peut-on dire des données ?
comme on observe xi , ri et yobs on peut souvent rejeter
MCAR et CD
on ne peut pas rejeter MAR en faveur de MNAR car on
n’observe pas ymqt
tester MAR suppose des hypothèses invérifiables
N. MEYER
Données manquantes
Introduction
Définitions
Les méthodes d’analyse
Conclusion
Classification méthodologique des DM
Impact des données manquantes
Effet des manquants
Classification de Little et Rubin
DM et données longitudinales
les données ne sont pas MCAR car sorties différentes dans
TMT et contrôle
pas seulement CD car complets et sortie ont des trajectoires
différentes
MAR ou MNAR, on ne peut pas savoir
N. MEYER
Données manquantes
Introduction
Définitions
Les méthodes d’analyse
Conclusion
Classification méthodologique des DM
Impact des données manquantes
Effet des manquants
Classification de Little et Rubin
L’(( ignorabilité )) des données
Les données sont (( ignorables )) si :
1
les données sont MAR
2
les paramètres grouvernant le mécanisme des manquants ne
sont pas reliés aux paramètres que l’on veut estimer
Cela signifie que :
pas nécessaire de modèliser le mécanisme des manquants
comme une part de l’estimation des paramètres
mais nécessite quand même des méthodes particulières
en pratique, toujours : ignorable (condition (2) ci-dessus
toujours remplie)
N. MEYER
Données manquantes
Introduction
Définitions
Les méthodes d’analyse
Conclusion
Classification méthodologique des DM
Impact des données manquantes
Effet des manquants
Classification de Little et Rubin
L’(( ignorabilité )) des données
Les données sont (( non-ignorables )) si les données ne sont pas
MAR.
implique de modéliser le mécanisme des manquants pour avoir
une bonne estimation des paramètres
implique des hypothèses fortes et non vérifiables sur le
mécanisme
donc d’applicabilité limitée
car résultats très dépendants des hypothèses sur les
manquants
et implique un modèle pour chaque cas particulier
donc, bien qu’évident, très peu utilisé
nous ne verrons que le cas ignorable
N. MEYER
Données manquantes
Introduction
Définitions
Les méthodes d’analyse
Conclusion
Classification méthodologique des DM
Impact des données manquantes
Effet des manquants
Classification de Little et Rubin
Un cas particulier
le (( missing plot )) dans un plan factoriel
issu de l’agronomie, quand un plot est un manquant
méthodes à part dédiées à ce problème
N. MEYER
Données manquantes
Introduction
Définitions
Les méthodes d’analyse
Conclusion
Classification méthodologique des DM
Impact des données manquantes
Effet des manquants
Classification de Little et Rubin
Les données monotones
Une répartition de données manquantes est dit monotone si :
les variables peuvent être arrangées d’une manière telle que
pour chaque observation de l’échantillon, si Xj est manquant,
alors Xj +j 0 est aussi manquant, avec j 0 entier positif et
j + j0 ≤ p
donc si pour un sujet i , les données sont manquantes à partir
d’une certaine variable
qui peut changer d’un sujet à l’autre
fréquent dans les données longitudinales (abandont du sujet à
partir d’une date donnée)
si une seule variable, forcément monotone
N. MEYER
Données manquantes
Introduction
Définitions
Les méthodes d’analyse
Conclusion
-->
-->
-->
-->
-->
-->
1
2
3
1
2
3
A
A
B
A
A
B
2
3
4
2
3
4
8
4
7
8
4
7
9
9
6
9
4
6
8
1
3
*
*
*
8
2
*
*
*
*
Classification méthodologique des DM
Impact des données manquantes
Effet des manquants
Classification de Little et Rubin
7
*
*
*
*
*
N. MEYER
Données manquantes
Introduction
Définitions
Les méthodes d’analyse
Conclusion
Classification méthodologique des DM
Impact des données manquantes
Effet des manquants
Classification de Little et Rubin
Deux autres types de répartition
Une répartition de données manquantes peut prendre d’autres
formes :
une répartition quelconque
une répartition très structurée
parfois volontaire
ou résultant de l’histoire des données comme dans la fusion de
données : deux (( demi-sondages )) ou sondages à deux époques
différentes
un cas très particulier : les variables latentes ou toutes les
valeurs d’une variables sont à retrouver, comme en analyse
factorielle
N. MEYER
Données manquantes
Introduction
Définitions
Les méthodes d’analyse
Conclusion
-->
-->
-->
-->
-->
-->
1
2
3
1
2
3
A
A
B
A
A
B
2
3
*
2
*
4
8
*
7
8
*
7
9
9
6
9
4
6
8
1
3
*
8
*
8
2
9
3
2
1
Classification méthodologique des DM
Impact des données manquantes
Effet des manquants
Classification de Little et Rubin
7
7
*
*
*
6
Il s’agit ici d’une répartition arbitraire
N. MEYER
Données manquantes
Introduction
Définitions
Les méthodes d’analyse
Conclusion
-->
-->
-->
-->
-->
-->
1
2
3
1
2
3
A
A
B
A
A
B
2
3
4
2
3
4
8
4
7
8
4
7
9
9
6
9
4
6
Classification méthodologique des DM
Impact des données manquantes
Effet des manquants
Classification de Little et Rubin
*
*
*
*
*
*
Il s’agit ici d’une variable latente
N. MEYER
Données manquantes
Introduction
Définitions
Les méthodes d’analyse
Conclusion
Classification méthodologique des DM
Impact des données manquantes
Effet des manquants
Classification de Little et Rubin
Le data fusion
Le data fusion (et le data matching, impliqué par le DF) :
l’ensemble des données sur un sujets ne sont pas forcément
dans une seule base de données
Def˚ : Combinaison de données, provenant de sources
différentes, pour obtenir un seul jeu de données dans lequel
toutes les variables sont renseignées (présence obligatoire de
variables communes)
fusionne des variables provenant d’un dataset avec des
variables d’un second dataset, en appariant les observations
par paires à partir de variables communes appelées (( variables
d’appariement )) ((( match variables ))).
N. MEYER
Données manquantes
Introduction
Définitions
Les méthodes d’analyse
Conclusion
Classification méthodologique des DM
Impact des données manquantes
Effet des manquants
Classification de Little et Rubin
Le data fusion
Le data fusion (suite) :
Il n’est pas nécessaire que les observations soient identiques
dans les deux datasets, c.-à-d. que toutes les observations
dans un dataset ne doivent pas forcément figurer dans l’autre.
par appariement d’individu (plus proche voisin) ou par
prédiction de variables
N. MEYER
Données manquantes
Introduction
Définitions
Les méthodes d’analyse
Conclusion
-->
-->
-->
-->
-->
-->
1
2
3
1
2
3
A
A
B
A
A
B
2
3
4
2
3
4
8
4
7
8
4
7
9
9
6
9
4
6
8
1
3
*
*
*
8
2
9
*
*
*
*
*
*
2
3
6
Classification méthodologique des DM
Impact des données manquantes
Effet des manquants
Classification de Little et Rubin
*
*
*
1
5
9
Il s’agit ici de fusionner les données en remplacant les données
manquantes.
N. MEYER
Données manquantes
Introduction
Définitions
Les méthodes d’analyse
Conclusion
La description des données
Après la description, l’analyse
Les méthodes sans modélisation
Imputation simple
L’algorithme EM
Imputation Multiple
Que faire en présence de DM ?
Avant tout, il faut décrire les données, c.-à-d. les données
manquantes et les données non manquantes
Combien de DM ?
Combien de DM par variable ?
Ou sont les DM ?
Certaines variables seulement ? Toutes les variables ?
certains sujets seulement ? Tous les sujets ?
Calculer le nombre et la proportion de données manquantes
(la plupart des logiciels le font automatiquement)
Decrire graphiquement les données et les données manquantes
N. MEYER
Données manquantes
Introduction
Définitions
Les méthodes d’analyse
Conclusion
La description des données
Après la description, l’analyse
Les méthodes sans modélisation
Imputation simple
L’algorithme EM
Imputation Multiple
typetrav Dénom. DénCum
1
448
448
2
60
508
3
197
705
N=
705
*=
94
% % Cum
63.55 63.55
8.51 72.06
27.94 100.00
déclench Dénom. DénCum
0
645
645
1
60
705
N=
705
*=
94
% % Cum
91.49 91.49
8.51 100.00
N. MEYER
Données manquantes
R827
R813
L797
L811
L786
L773
L758
L686
R681
L673
L651
R638
L636
L592
R590
L584
L551
L543
R487
L477
L451
R450
L448
L410
R381
L358
L352
R349
L346
L333
R323
R221
L204
R198
L186
L138
L599
La description des données
Après la description, l’analyse
Les méthodes sans modélisation
Imputation simple
L’algorithme EM
Imputation Multiple
Introduction
Définitions
Les méthodes d’analyse
Conclusion
D9S171
D9S171
N. MEYER
Données manquantes
R827
R813
L797
L811
L786
L773
L758
Norm.
D2S138
L686
D18S61
R681
D16S422
D2S138
L673
D17S794
D18S61
L651
D6S264
D16S422
R638
D14S65
D17S794
L636
D18S53
D6S264
L599
D17S790
D14S65
L592
D1S225
D18S53
R590
D3S1282
D17S790
L584
D9S179
D1S225
L551
D5S430
D3S1282
L543
D8S283
D9S179
R487
D11S916
D5S430
L477
D2S159
D8S283
L451
D16S408
D11S916
R450
D5S346
D2S159
L448
D10S191
D16S408
L410
D13S173
D5S346
R381
D6S275
D10S191
L358
D15S127
D13S173
L352
D1S305
D6S275
R349
D4S394
D15S127
L346
D20S107
D1S305
L333
D1S197
D4S394
R323
D1S207
D20S107
R221
D10S192
D1S197
L204
D3S1283
D1S207
L186
D4S414
D10S192
L138
D8S264
D3S1283
R198
D22S928
D4S414
AI
TP53
D8S264
manquants
TP53
D22S928
R827
R813
L797
L811
L786
L773
L758
L686
R681
L673
L651
R638
L636
L592
R590
L584
L551
L543
R487
L477
L451
R450
L448
L410
R381
L358
L352
R349
L346
L333
R323
R221
L204
R198
L186
L138
L599
La description des données
Après la description, l’analyse
Les méthodes sans modélisation
Imputation simple
L’algorithme EM
Imputation Multiple
Introduction
Définitions
Les méthodes d’analyse
Conclusion
D9S171
D9S171
N. MEYER
Données manquantes
R827
R813
L797
L811
L786
L773
L758
D2S138
L686
D18S61
R681
D16S422
D2S138
L673
D17S794
D18S61
L651
D6S264
D16S422
R638
D14S65
D17S794
L636
D18S53
D6S264
L599
D17S790
D14S65
L592
D1S225
D18S53
R590
D3S1282
D17S790
L584
D9S179
D1S225
L551
D5S430
D3S1282
L543
D8S283
D9S179
R487
D11S916
D5S430
L477
D2S159
D8S283
L451
D16S408
D11S916
R450
D5S346
D2S159
L448
D10S191
D16S408
L410
D13S173
D5S346
R381
D6S275
D10S191
L358
D15S127
D13S173
L352
D1S305
D6S275
R349
D4S394
D15S127
L346
D20S107
D1S305
L333
D1S197
D4S394
R323
D1S207
D20S107
R221
D10S192
D1S197
L204
D3S1283
D1S207
L186
D4S414
D10S192
L138
D8S264
D3S1283
R198
D22S928
D4S414
Présents
TP53
D8S264
Manquants
TP53
D22S928
La description des données
Après la description, l’analyse
Les méthodes sans modélisation
Imputation simple
L’algorithme EM
Imputation Multiple
Introduction
Définitions
Les méthodes d’analyse
Conclusion
Données manquantes
GR
GB
TAT
Ddim
PF4
Gly
NumPlq
N. MEYER
TG
CLDL
CHDL
CT
Jeun
tab
BMI
Taille
Poids
Sexe
Age
Manquants
300
299
298
297
296
295
294
293
292
291
290
289
288
287
286
285
284
283
282
281
280
279
278
277
276
275
274
273
272
271
270
269
268
267
266
265
264
263
262
261
260
259
258
257
256
255
254
253
252
251
250
249
248
247
246
245
244
243
242
241
240
239
238
237
236
235
234
233
232
231
230
229
228
227
226
225
224
223
222
221
220
219
218
217
216
215
214
213
212
211
210
209
208
207
206
205
204
203
202
201
200
199
198
197
196
195
194
193
192
191
190
189
188
187
186
185
184
183
182
181
180
179
178
177
176
175
174
173
172
171
170
169
168
167
166
165
164
163
162
161
160
159
158
157
156
155
154
153
152
151
150
149
148
147
146
145
144
143
142
141
140
139
138
137
136
135
134
133
132
131
130
129
128
127
126
125
124
123
122
121
120
119
118
117
116
115
114
113
112
111
110
109
108
107
106
105
104
103
102
101
100
99
98
97
96
95
94
93
92
91
90
89
88
87
86
85
84
83
82
81
80
79
78
77
76
75
74
73
72
71
70
69
68
67
66
65
64
63
62
61
60
59
58
57
56
55
54
53
52
51
50
49
48
47
46
45
44
43
42
41
40
39
38
37
36
35
34
33
32
31
30
29
28
27
26
25
24
23
22
21
20
19
18
17
16
15
14
13
12
11
10
9
8
7
6
5
4
3
2
1
GPV
300
299
298
297
296
295
294
293
292
291
290
289
288
287
286
285
284
283
282
281
280
279
278
277
276
275
274
273
272
271
270
269
268
267
266
265
264
263
262
261
260
259
258
257
256
255
254
253
252
251
250
249
248
247
246
245
244
243
242
241
240
239
238
237
236
235
234
233
232
231
230
229
228
227
226
225
224
223
222
221
220
219
218
217
216
215
214
213
212
211
210
209
208
207
206
205
204
203
202
201
200
199
198
197
196
195
194
193
192
191
190
189
188
187
186
185
184
183
182
181
180
179
178
177
176
175
174
173
172
171
170
169
168
167
166
165
164
163
162
161
160
159
158
157
156
155
154
153
152
151
150
149
148
147
146
145
144
143
142
141
140
139
138
137
136
135
134
133
132
131
130
129
128
127
126
125
124
123
122
121
120
119
118
117
116
115
114
113
112
111
110
109
108
107
106
105
104
103
102
101
100
99
98
97
96
95
94
93
92
91
90
89
88
87
86
85
84
83
82
81
80
79
78
77
76
75
74
73
72
71
70
69
68
67
66
65
64
63
62
61
60
59
58
57
56
55
54
53
52
51
50
49
48
47
46
45
44
43
42
41
40
39
38
37
36
35
34
33
32
31
30
29
28
27
26
25
24
23
22
21
20
19
18
17
16
15
14
13
12
11
10
9
8
7
6
5
4
3
2
1
Présents
GR
GB
NumPlq
TAT
Ddim
PF4
Gly
TG
CLDL
CHDL
CT
Jeun
tab
BMI
Taille
Poids
Sexe
Age
GPV
Data missing by block (intended or not)
Introduction
Définitions
Les méthodes d’analyse
Conclusion
La description des données
Après la description, l’analyse
Les méthodes sans modélisation
Imputation simple
L’algorithme EM
Imputation Multiple
Determination du mécanisme des manquants
Le caractère manquant d’une donnée peut-être étudié
D devient Y
faire un modèle pour étudier les causes des manquants
facile à faire
problème circulaire : en général, DM sur plusieurs variables
(donc X incomplets)
difficile à interpréter
N. MEYER
Données manquantes
Introduction
Définitions
Les méthodes d’analyse
Conclusion
La description des données
Après la description, l’analyse
Les méthodes sans modélisation
Imputation simple
L’algorithme EM
Imputation Multiple
Que faire après la description
La plupart des logiciels décident tout seul ce qu’il faut faire
avec les données manquantes
Les logiciels courants utilisent des méthodes de mauvaises
qualités (SPSS notamment) ou rien (MINITAB)
Rares sont les logiciels qui permettent une analyse correcte :
S+/R, SAS et WinBUGS
N. MEYER
Données manquantes
Introduction
Définitions
Les méthodes d’analyse
Conclusion
La description des données
Après la description, l’analyse
Les méthodes sans modélisation
Imputation simple
L’algorithme EM
Imputation Multiple
méthode du cas complet
X deux V.A. X1 et X2 , n-échantillon.
m1 et m2 valeurs mqt. sur X1 et X2 .
Le nombre m de sujets ayant au moins une donnée manquante
max (m1 , m2 ) ≤ m ≤ m1 + m2
Le nombre nc de sujets complets est égale à n − m.
Donc en général nc < nombre de sujets complets pour X1 ou
pour X2 et :
la plupart du temps on perd plus de valeurs que le nombre réel
de valeurs manquantes
N. MEYER
Données manquantes
Introduction
Définitions
Les méthodes d’analyse
Conclusion
-->
-->
-->
1
2
3
A 3 4 * 56 H 1
A 2 8 9 47 F 1
B 4 7 6 55 F 0
-->
-->
-->
1
2
3
* * * * * * *
A 2 8 9 47 F 1
B 4 7 6 55 F 0
2
3
A 2 8 9 47 F 1
B 4 7 6 55 F 0
-->
-->
N. MEYER
La description des données
Après la description, l’analyse
Les méthodes sans modélisation
Imputation simple
L’algorithme EM
Imputation Multiple
Données manquantes
Introduction
Définitions
Les méthodes d’analyse
Conclusion
La description des données
Après la description, l’analyse
Les méthodes sans modélisation
Imputation simple
L’algorithme EM
Imputation Multiple
Méthode du cas complet : avantages
facilite les comparaisons entre analyses uni- et multivariées
mais seulement si on retire les mêmes sujets d’une analyse à
l’autre
pas-à-pas ascendants : le logiciel retire d’emblée les sujets
incomplets sur toutes les variables candidates même si in fine
toutes ne sont pas retenues dans le modèle
N. MEYER
Données manquantes
Introduction
Définitions
Les méthodes d’analyse
Conclusion
La description des données
Après la description, l’analyse
Les méthodes sans modélisation
Imputation simple
L’algorithme EM
Imputation Multiple
Méthode du cas complet : inconvénients
biais évident sauf si MCAR
perte de puissance
perte de cas rapidement considérable
si 10 variables avec 10% de manquants (sur des sujets
différents)
0, 910 cas complets = 34,8%
N. MEYER
Données manquantes
Introduction
Définitions
Les méthodes d’analyse
Conclusion
La description des données
Après la description, l’analyse
Les méthodes sans modélisation
Imputation simple
L’algorithme EM
Imputation Multiple
Méthode du cas disponible
on utilise pour chaque sous-analyse ou chaque sous-partie de
l’analyse l’ensemble des cas complets
avantage : nb max de sujets à chaque analyse / chaque partie
inconvénients : nb variables d’une analyse / partie à l’autre
Y = α1 + βX1 et Y = α1 + βX2
portent sur des sujets différents
ACP : matrice de covariance mal conformée
pas-à-pas : certains logiciels excluent les sujets incomplets à
chaque étape et pas d’emblée
N. MEYER
Données manquantes
Introduction
Définitions
Les méthodes d’analyse
Conclusion
La description des données
Après la description, l’analyse
Les méthodes sans modélisation
Imputation simple
L’algorithme EM
Imputation Multiple
Ajustement sur dummy variable
Une méthode simple et intuitive proposée par Cohen en 1985.
soit un modèle de régression Y = f (X )
soit une V.A. X explicative incomplète
on crée une V. indicatrice D, D = 1 si X manquant, D = 0
sinon
autre solution
on crée une V. indicatrice D ∗ , D ∗ = c si X manquant,
D ∗ = X sinon
ou c est une constante quelconque
le coefficient de X est invariant à c
N. MEYER
Données manquantes
Introduction
Définitions
Les méthodes d’analyse
Conclusion
La description des données
Après la description, l’analyse
Les méthodes sans modélisation
Imputation simple
L’algorithme EM
Imputation Multiple
Ajustement sur dummy variable
ce qui change selon c, c’est le coefficient de D ∗
pour faciliter l’interprétation : c = m(X = Xobs )
alors : βD = valeur prédite de Y pour les sujets incomplets
moins la valeur prédite de Y pour les individus à la moyenne
de X
mais la méthode est biaisée
et donc les estimations ne sont pas valides
N. MEYER
Données manquantes
Introduction
Définitions
Les méthodes d’analyse
Conclusion
La description des données
Après la description, l’analyse
Les méthodes sans modélisation
Imputation simple
L’algorithme EM
Imputation Multiple
Ajustement sur dummy variable
Cependant :
la méthode permet d’utiliser tous les sujets disponibles
y compris ceux qui sont incomplets
donc on évite la perte de puissance : meilleure précision des
estimateurs (et donc choisir entre biais et précision)
on peut également tester des interactions entre D ou D ∗ et Xj
pour détecter un mécanisme particulier pour les manquants
N. MEYER
Données manquantes
Introduction
Définitions
Les méthodes d’analyse
Conclusion
La description des données
Après la description, l’analyse
Les méthodes sans modélisation
Imputation simple
L’algorithme EM
Imputation Multiple
Les méthodes d’imputation
méthodes très nombreuses
consiste à substituer à la valeur manquante une valeur choisie
de manière (( pertinente )).
méthodes (( séduisantes et dangereuses )) (Rubin)
Deux grands types :
1
2
imputation simple
imputation multiple
N. MEYER
Données manquantes
Introduction
Définitions
Les méthodes d’analyse
Conclusion
La description des données
Après la description, l’analyse
Les méthodes sans modélisation
Imputation simple
L’algorithme EM
Imputation Multiple
Les méthodes d’imputation simple
(... et mauvaises)
LOCF : Last Observation Caried Forward
ajouter une catégorie pour les DM
moyenne non conditionnelle
moyenne conditionnelle (Buck) (par bloc ou pas)
imputation + aléa
simples mais inconvénients +++ / overfitting /ad hoc
estimations d’IC très difficiles
N. MEYER
Données manquantes
Introduction
Définitions
Les méthodes d’analyse
Conclusion
La description des données
Après la description, l’analyse
Les méthodes sans modélisation
Imputation simple
L’algorithme EM
Imputation Multiple
Ajout d’une catégorie pour les DM
Soit X une variable aléatoire catégorielle et incomplète
On crée une catégorie suplémentaire désignant la DM
On fait le modèle avec cette variable multinomiale
interprétation ? Délicate !
Bais + + et augmente le nb de ddl
Difficile à utiliser pour des variables ordinales ou continues
N. MEYER
Données manquantes
Introduction
Définitions
Les méthodes d’analyse
Conclusion
La description des données
Après la description, l’analyse
Les méthodes sans modélisation
Imputation simple
L’algorithme EM
Imputation Multiple
Last Observation Carried Forward : LOCF (1)
très prisée dans l’industrie pharmaceutique
consiste à remplacer une valeur manquante par la valeur qui la
précède dans le fichier ( !)
très facile à réaliser
aucune justification théorique
suppose que le fichier n’est pas trié et donc les sujets ont un
ordre aléatoire indépendant du mécanisme des manquants
N. MEYER
Données manquantes
Introduction
Définitions
Les méthodes d’analyse
Conclusion
La description des données
Après la description, l’analyse
Les méthodes sans modélisation
Imputation simple
L’algorithme EM
Imputation Multiple
Première variante : d’un sujet à l’autre
-->
-->
-->
1
2
3
A 2 8
A 3 4
B 4 7
9
*
6
47 F 1
56 H 1
55 F 0
-->
-->
-->
1
2
3
A 2 8 9 47 F 1
A 3 4 |9| 56 H 1
B 4 7 6 55 F 0
N. MEYER
Données manquantes
Introduction
Définitions
Les méthodes d’analyse
Conclusion
La description des données
Après la description, l’analyse
Les méthodes sans modélisation
Imputation simple
L’algorithme EM
Imputation Multiple
Seconde variante : d’un temps à l’autre pour un même sujet dans
une étude longitudinale
-->
-->
-->
1
2
3
A 2 8
A 3 4
B 4 7
9
*
6
-->
-->
-->
1
2
3
A 2 8 9
A 3 4 |4|
B 4 7 6
N. MEYER
Données manquantes
Introduction
Définitions
Les méthodes d’analyse
Conclusion
La description des données
Après la description, l’analyse
Les méthodes sans modélisation
Imputation simple
L’algorithme EM
Imputation Multiple
Last Observation Carried Forward : LOCF (1)
connait des variantes intéressantes par exemple pour des
données continues
on prend la valeur précédente plus un aléa suivant une loi
pertinente
peut s’envisager avec des raffinements dans de l’imputation
multiples
à ne jamais utiliser sinon
N. MEYER
Données manquantes
Introduction
Définitions
Les méthodes d’analyse
Conclusion
La description des données
Après la description, l’analyse
Les méthodes sans modélisation
Imputation simple
L’algorithme EM
Imputation Multiple
Les méthodes dans les enquêtes
Quelques méthodes classiques :
cold deck : source exterieur, limites + + +
substitution : tirage au sort d’une nouvelle unité
difficile si stratification a posteriori
N. MEYER
Données manquantes
Introduction
Définitions
Les méthodes d’analyse
Conclusion
La description des données
Après la description, l’analyse
Les méthodes sans modélisation
Imputation simple
L’algorithme EM
Imputation Multiple
Les méthodes dans les enquêtes
Une méthodes à part :
le hot deck
on remplace la valeur manquante par une valeur prise chez un
sujet similaire sur un certain nombre de variables
difficile en partique car impose une mesure de distance qui est
délicate à définir
biais et impact sur la puissance des analyses car diminution
des variances
N. MEYER
Données manquantes
Introduction
Définitions
Les méthodes d’analyse
Conclusion
La description des données
Après la description, l’analyse
Les méthodes sans modélisation
Imputation simple
L’algorithme EM
Imputation Multiple
Le (( worst case )) et ses variantes (1)
Une méthode facile à utiliser pour des variables catégorielles :
imputer les valeurs qui défavorisent (cliniquement) le résultat
attendu
soit à estimer une proportion p sur N sujets dont n sont
manquants
on peut attribuer l’une des modalités (VIH+) à tous les n
manquants et estimer p
exemple : VIH au Kenya : N = 787, n = 36, r+ = 52
on obtient par le (( worst case )) : p = 88/787
on peut faire un intervalle (( worst case - best case )) (ou le
contraire selon contexte) qui sert de point de départ à la
modélisation
N. MEYER
Données manquantes
Introduction
Définitions
Les méthodes d’analyse
Conclusion
La description des données
Après la description, l’analyse
Les méthodes sans modélisation
Imputation simple
L’algorithme EM
Imputation Multiple
Le (( worst case )) et ses variantes (2)
Variantes dans les essais thérapeutiques
on veut comparer l’effet de deux traitements sur un résultat
clinique
souvent la mesure d’intérêt est absente (décès, guérison car
perdu de vue ou autre)
l’estimation de l’effet du traitement est biaisé par les DM
on se met dans une situation défavorable au nouveau TMT
si la différence existe quand même, on peut valider le nouveau
traitement
N. MEYER
Données manquantes
Introduction
Définitions
Les méthodes d’analyse
Conclusion
La description des données
Après la description, l’analyse
Les méthodes sans modélisation
Imputation simple
L’algorithme EM
Imputation Multiple
20
40
60
80
100
All allocated to good
Extreme favouring A
0
Angioplasty: % of missing allocated to good outcome (n=30)
Etude de sensibilité : Shadish
All allocated to poor
0
20
Extreme favouring S
40
60
80
100
Stent: % of missing allocated to good outcome (n=24)
Significant difference (p<0.05)
No significant difference (p>0.05)
N. MEYER
Données manquantes
Introduction
Définitions
Les méthodes d’analyse
Conclusion
La description des données
Après la description, l’analyse
Les méthodes sans modélisation
Imputation simple
L’algorithme EM
Imputation Multiple
Méthode de Delucchi
Pour des données qualitatives : table 2 × 2
si on a m valeurs manquantes dans l’une des deux variables
on peut imputer les valeurs marginales de m + 1 manières
puis dans chaque cellules à partir de la marge
(m1. + 1) × (m2. + 1) possibilités
pour chacune des m + 1 combinaisons marginales
à partir desquelles on conclut
N. MEYER
Données manquantes
Introduction
Définitions
Les méthodes d’analyse
Conclusion
La description des données
Après la description, l’analyse
Les méthodes sans modélisation
Imputation simple
L’algorithme EM
Imputation Multiple
Solutions à part
littérature + + + ad hoc + + +
algorithme NIPALS : voir modèles PLS
qui suppose quand même des hypothèses fortes sur les DM
! ne pas avoir de DM ! !
N. MEYER
Données manquantes
Introduction
Définitions
Les méthodes d’analyse
Conclusion
La description des données
Après la description, l’analyse
Les méthodes sans modélisation
Imputation simple
L’algorithme EM
Imputation Multiple
L’algorithme EM
Principe (très général) :
Interdépendance entre paramétres θ et Ymqt
Ymqt contient de l’information utile pour estimer θ
et θ permet d’obtenir des valeurs pertinentes pour Ymqt
On remplit les manquants à partir d’une estimation de θ
puis on ré-estime θ à partir de Yobs et Ymqt
et on répéte jusqu’à convergence
N. MEYER
Données manquantes
Introduction
Définitions
Les méthodes d’analyse
Conclusion
La description des données
Après la description, l’analyse
Les méthodes sans modélisation
Imputation simple
L’algorithme EM
Imputation Multiple
L’algorithme EM
Les données complètes (i.e. obs + mqt) peuvent être mise sous la
forme suivante :
Pr (Y |θ) = Pr (Yobs |θ)Pr (Ymqt |Yobs , θ)
d’où :
L(θ|Y ) = L(θ|Yobs ) + log Pr (Ymqt |Yobs , θ) + c
avec : L(θ|Y ) = log Pr (Y |θ) vraisemblance des données
complètes
et : L(θ|Yobs ) = log Pr (Yobs |θ) vraisemblance des données
observées
Pr (Ymqt |Yobs , θ) : distrib. prédictive des DM sachant θ
fait le lien entre θ et les DM
N. MEYER
Données manquantes
Introduction
Définitions
Les méthodes d’analyse
Conclusion
La description des données
Après la description, l’analyse
Les méthodes sans modélisation
Imputation simple
L’algorithme EM
Imputation Multiple
L’algorithme EM
Soit θ(t) l’estimation courante de θ. Les estimations se font ensuite
en deux étapes :
E Expectation étape qui donne la log-vraisemblance
R
Q(θ|θ(t) ) = L(θ|Y )Pr (Ymqt |Yobs , θ = θ(t) )dYmqt
M Maximization étape qui détermine θ(t+1) en maximisant cette
log-vraisemblance
Q(θ(t+1) |θ(t) ) ≥ Q(θ|θ(t) )
N. MEYER
Données manquantes
Introduction
Définitions
Les méthodes d’analyse
Conclusion
La description des données
Après la description, l’analyse
Les méthodes sans modélisation
Imputation simple
L’algorithme EM
Imputation Multiple
L’algorithme EM
Un résultat de Dempster, Laird et Rubin (1977) montre que :
si θ(t+1) est la valeur de θ qui maximise Q(θ|θ(t) )
alors θ(t+1) est une meilleure estimation que θ(t)
car la vraisemblance des données observées pour θ(t+1) est au
moins aussi grande que celle pour θ(t)
L(θ(t+1) |Yobs ) ≥ L(θ(t) |Yobs )
N. MEYER
Données manquantes
Introduction
Définitions
Les méthodes d’analyse
Conclusion
La description des données
Après la description, l’analyse
Les méthodes sans modélisation
Imputation simple
L’algorithme EM
Imputation Multiple
L’algorithme EM : exemple
Illustré sur une table 2 × 2
on suppose deux variables Y1 et Y2 , variables dichotomiques
toutes les deux incomplètes
le tableau croisé des deux variables : distribution multinomiale
x = {x11 , x12 , x21 , x22 }
de paramètres : θ = {θ11 , θ12 , θ21 , θ22 }
avec θij proba qu’un sujet ait Y1 = i et Y2 = j
alors la vraisemblance s’écrit :
L(θ|x ) = x11 logθ11 + x12 logθ12 + x21 logθ21 + x22 logθ22
les MLE obtenus par : xij = nθij
N. MEYER
Données manquantes
Introduction
Définitions
Les méthodes d’analyse
Conclusion
La description des données
Après la description, l’analyse
Les méthodes sans modélisation
Imputation simple
L’algorithme EM
Imputation Multiple
L’algorithme EM : exemple
Soit la table suivante :
sujet
Y2 = 1
Y2 = 2
Y2 = mqt
Y1 = 1
Y1 = 2
A
x11
A
x21
A
x12
A
x22
B
x1+
B
x2+
Y1 = mqt
C
x+1
C
x+2
N. MEYER
Données manquantes
Introduction
Définitions
Les méthodes d’analyse
Conclusion
La description des données
Après la description, l’analyse
Les méthodes sans modélisation
Imputation simple
L’algorithme EM
Imputation Multiple
L’algorithme EM : exemple
Les deux étapes de l’algorithme :
étape E remplace les valeurs inconnues xijB et xijC par leur
espérance conditionnelles
E (xij |Yobs , θ) = E (xijA + xijB + xijC |Yobs , θ)
B θ /θ
C
= xijA + xi+
ij
i+ + x+j θij /θ+j
étape M θij = E (xij |Yobs , θ)/n
en combinant les deux étapes en une seule, on obtient :
(t) (t) θij
θij
(t+1)
−1
A
B
C
θij
=n
xij + xi+ (t) + x+j
(t)
θi+
N. MEYER
θ+j
Données manquantes
Introduction
Définitions
Les méthodes d’analyse
Conclusion
La description des données
Après la description, l’analyse
Les méthodes sans modélisation
Imputation simple
L’algorithme EM
Imputation Multiple
L’algorithme EM : exemple
Soit la table suivante :
sujet
Non victimes t2
Victimes t2
Non-réponses
Non victimes t1
Victimes t1
392
76
55
38
33
9
Non-réponses
31
7
N. MEYER
Données manquantes
Introduction
Définitions
Les méthodes d’analyse
Conclusion
La description des données
Après la description, l’analyse
Les méthodes sans modélisation
Imputation simple
L’algorithme EM
Imputation Multiple
L’algorithme EM : exemple
Itérations de l’EM :
(t)
(t)
(t)
(t)
t
θ11
θ12
θ21
θ22
0
1
...
4
5
0,2500
0,6615
...
0,6971
0,6971
0,2500
0,1170
...
0,0987
0,0987
0,2500
0,1498
...
0,1358
0,1358
0,2500
0,0718
...
0,0684
0,0685
∞
0,6971
0,0987
0,1358
0,0685
N. MEYER
Données manquantes
Introduction
Définitions
Les méthodes d’analyse
Conclusion
La description des données
Après la description, l’analyse
Les méthodes sans modélisation
Imputation simple
L’algorithme EM
Imputation Multiple
L’Imputation Multiple : la star !
Repris de JL Schafer :
Single-imputation strategies designed to precisely predict the
missing values tend to distort estimates of population
quantities
The goal of the missing-data procedure is to draw accurate
inferences about population quantities (e.g. mean change over
time), not to accurately predict the missing values
With imputation, the best way to achieve that goal is to
preserve all aspects of the data distribution (means, trends,
within- and between-subject variation, etc.)
Ad hoc imputation methods inevitably preserve some aspects
but distort others
N. MEYER
Données manquantes
Introduction
Définitions
Les méthodes d’analyse
Conclusion
La description des données
Après la description, l’analyse
Les méthodes sans modélisation
Imputation simple
L’algorithme EM
Imputation Multiple
L’Imputation Multiple : la star !
l’imputation simple est ... unique
la donnée imputée est considéré comme une donnée observée
ne tient pas compte de l’incertitude sup. liée aux manquants
d’où l’idée de faire plusieurs imputations différentes
on substitue plusieurs valeurs à chaque DM
on analyse en tenant compte de cette multiplicité
N. MEYER
Données manquantes
Introduction
Définitions
Les méthodes d’analyse
Conclusion
La description des données
Après la description, l’analyse
Les méthodes sans modélisation
Imputation simple
L’algorithme EM
Imputation Multiple
Les étapes d’une imputation multiple
on analyse la matrice des données pour en déduire un modèle
pour les DM
on réalise entre M = 3 et 10 imputations
pour obtenir 3 à 10 jeux de données complétés
on calcule le paramètre d’intérêt pour chaque jeu
on combine les M imputations pour avoir une inférence
qui tienne compte de l’incertitude supplémentaire liée aux DM
N. MEYER
Données manquantes
Introduction
Définitions
Les méthodes d’analyse
Conclusion
La description des données
Après la description, l’analyse
Les méthodes sans modélisation
Imputation simple
L’algorithme EM
Imputation Multiple
Formules pour l’IM
M estimations ponctuelles pour le vecteur de paramètre θ
Si gaussien, moyenne et écart-type :

(t)
¯

Q̂ (t) = Q̂(Yobs , Ymiss ), t = 1, . . . , m

et


(t)
Û (t) = Û (t) (Yobs , Ymiss ), t = 1, . . . , m
On calcule ensuite :
m
1 X (t)
¯
Q̂ =
Q̂
m t=1
N. MEYER
Données manquantes
La description des données
Après la description, l’analyse
Les méthodes sans modélisation
Imputation simple
L’algorithme EM
Imputation Multiple
Introduction
Définitions
Les méthodes d’analyse
Conclusion
Formules pour l’IM (suite)
La Var. globale a deux composantes :
(1) variance intra-imputation
Ū =
m
1 X (t)
U
m t=1
(2) La variance inter-imputation vaut :
m
1 X ¯ (t)
B=
(Q̂ − Q̄)2
m − 1 t=1
La variance totale vaut :
T = Ū + (1 + m −1 )B
N. MEYER
Données manquantes
Introduction
Définitions
Les méthodes d’analyse
Conclusion
La description des données
Après la description, l’analyse
Les méthodes sans modélisation
Imputation simple
L’algorithme EM
Imputation Multiple
Formules pour l’IM (suite)
À partir de ces équations, on peut réaliser des tests :
Q − Q̄
√
; tν
T2
avec :
ν = (m − 1) 1 +
Ū
(1 + m −1 )B
2
→ intervalles de confiances.
Ces statistiques tiennent compte de l’incertitude suppl. liées aux
DM.
N. MEYER
Données manquantes
Introduction
Définitions
Les méthodes d’analyse
Conclusion
La description des données
Après la description, l’analyse
Les méthodes sans modélisation
Imputation simple
L’algorithme EM
Imputation Multiple
Un exemple simple
Exemple : voir feuille Excel
N. MEYER
Données manquantes
Introduction
Définitions
Les méthodes d’analyse
Conclusion
La description des données
Après la description, l’analyse
Les méthodes sans modélisation
Imputation simple
L’algorithme EM
Imputation Multiple
Obtention des imputations
Pour faire de l’IM, il faut générer les valeurs simulées :
à partir de la distribution a posteriori des valeurs de Ymqt
on définit donc un modèle pour les manquants
en analysant la matrice R
et en simulant en général sous un modèle multinormal
on tire m valeur de Pr(Ymqt |Yobs )
Z
Pr(Ymqt |Yobs ) = Pr(Ymqt |Yobs , θ)Pr (θ|Yobs )d θ
soit distribution prédictive de Ymqt sachant θ moyenné sur la
distribution a posteriori de θ
ce qui reflète l’incertitude sur Ymqt sachant les paramètres du
modèle des données complètes.
N. MEYER
Données manquantes
Introduction
Définitions
Les méthodes d’analyse
Conclusion
La description des données
Après la description, l’analyse
Les méthodes sans modélisation
Imputation simple
L’algorithme EM
Imputation Multiple
Obtention des imputations
Autre méthode, sur des variables quantitatives (( approximate
bayesian bootstrap )) :
rég. logistique pour prédire si X est manquant ou pas
calculer proba de manquer = propensity score
on trie par prop. score puis quintiles
dans chaque quintile, r cas complets et m mqt
parmi les r complets, on tire avec remise un éch. aléatoire de
taille r
pour chaque mqt, on tire avec remise une valeur dans l’éch.
précédent
dernière étape répétée M fois puis combinaison des M
paramètres
N. MEYER
Données manquantes
Introduction
Définitions
Les méthodes d’analyse
Conclusion
La description des données
Après la description, l’analyse
Les méthodes sans modélisation
Imputation simple
L’algorithme EM
Imputation Multiple
L’IM : avantages
souple + +
donne des résultats valides
robuste aux écarts de spécification du modèle
M peut être faible : 3, 5, pas plus de 10.
N. MEYER
Données manquantes
Introduction
Définitions
Les méthodes d’analyse
Conclusion
La description des données
Après la description, l’analyse
Les méthodes sans modélisation
Imputation simple
L’algorithme EM
Imputation Multiple
L’IM : inconvénients (limités)
⇒ le recours à des logiciels
repose sur le modèle (mais les autres méthodes aussi)
si les effectifs sont faibles → variantes particulières
Par ailleurs
aspects bayésiens → utiliser WinBUGS
N. MEYER
Données manquantes
Introduction
Définitions
Les méthodes d’analyse
Conclusion
La description des données
Après la description, l’analyse
Les méthodes sans modélisation
Imputation simple
L’algorithme EM
Imputation Multiple
l’IM par MICE (1)
MICE : Multiple Imputation Chained Equation
également le nom d’un package R.
récent : 2000
obtention des imputations par le chainage d’équation
N. MEYER
Données manquantes
Introduction
Définitions
Les méthodes d’analyse
Conclusion
La description des données
Après la description, l’analyse
Les méthodes sans modélisation
Imputation simple
L’algorithme EM
Imputation Multiple
l’IM par MICE (2)
Principe de la méthode :
soit une matrice X de taile n × p, avec m valeurs
manquantes, et j variables incomplètes
on impute chaque valeur manquante des j variables
incomplètes une fois à partir des données observées
on prend une première variable dont on retire les valeurs
imputées
(donc on reprend la variable dans son état initial, incomplètes)
on impute les valeurs manquantes à partir des autres variables
complétées
on passe à la variable suivante : on prédit les valeurs
incomplètes à partir des autres
on fait un tour complet sur l’ensemble des variables
incomplètes
N. MEYER
Données M
manquantes
on procède à M tours
pour obtenir
jeux de données
Introduction
Définitions
Les méthodes d’analyse
Conclusion
La description des données
Après la description, l’analyse
Les méthodes sans modélisation
Imputation simple
L’algorithme EM
Imputation Multiple
l’IM par MICE (3)
Avantages et limites de la méthode
facile à faire
gère tous les types de données dans un même (( modèle ))
plus facile à faire sur de très grand jeux de données que IM
classique
peu de fondements théoriques
convergence non assurée
mais empiriquement efficace
N. MEYER
Données manquantes
Introduction
Définitions
Les méthodes d’analyse
Conclusion
La description des données
Après la description, l’analyse
Les méthodes sans modélisation
Imputation simple
L’algorithme EM
Imputation Multiple
Retour sur les MNAR
Si les données sont MNAR :
implique de modéliser le mécanisme des manquants pour avoir
une bonne estimation des paramètres
implique des hypothèses fortes et non vérifiables sur le
mécanisme
or souvent on peut raisonnablement suspecter MNAR
on peut les modèliser mais complexe, au cas par cas
et ne peuvent que difficilement être testé (dépend du
contexte)
donc pas de méthode générale possible type IM
N. MEYER
Données manquantes
Introduction
Définitions
Les méthodes d’analyse
Conclusion
La description des données
Après la description, l’analyse
Les méthodes sans modélisation
Imputation simple
L’algorithme EM
Imputation Multiple
Une méthode à part : l’algorithme NIPALS
Crée dans les années 1960 pour l’ACP
a la particularité de pouvoir fournir les composantes de l’ACP
si l’on travaille sur les données complète
fournit un résultat si données incomplètes
sans
sans
sans
sans
supprimer de sujets
supprimer de variable
estimer les données manquantes !
imputation !
peut être utilisé à l’envers pour estimer ou imputer les DM
N. MEYER
Données manquantes
Introduction
Définitions
Les méthodes d’analyse
Conclusion
La description des données
Après la description, l’analyse
Les méthodes sans modélisation
Imputation simple
L’algorithme EM
Imputation Multiple
Une méthode à part : l’algorithme NIPALS
Algorithme itératif, utilisable en régression
soit y et X, centrée réduite
on ajuste de manière itérative y = aXj + ε
faisable sur données incomplètes
puis construction de composantes
normer le vecteur a1 : w1 = a1 /ka1 k.
calculer la composante t1 = 1/(t w1 w1 )Xw1 .
itération → h
exprimer la composante th en termes de prédicteurs X :
th = Xwh∗ .
N. MEYER
Données manquantes
Introduction
Définitions
Les méthodes d’analyse
Conclusion
La description des données
Après la description, l’analyse
Les méthodes sans modélisation
Imputation simple
L’algorithme EM
Imputation Multiple
Une autre méthode à part : les modèles mixtes
Créés pour analyser des données longitudinales ou multi-niveaux,
répétées etc.
permet de travailler sur des données incomplètes
et avec des sujets n’ayant qu’une valeur sur j
supprime quand même les sujets n’ayant que des données
manquantes
N. MEYER
Données manquantes
Introduction
Définitions
Les méthodes d’analyse
Conclusion
La description des données
Après la description, l’analyse
Les méthodes sans modélisation
Imputation simple
L’algorithme EM
Imputation Multiple
une autre question : Y ou X ?
Les problèmes de DM se posent surtout lorsque X est
incomplet
Lorsque Y est incomplet → estimer Yi à partir du modèle
Donc le problème est moins grave mais il existe quand même
S’écrit naturellement dans WinBUGS (en fait il est inutile de
l’écrire !)
Problème sérieux dans le domaine médical ou le problème
n’est pas que statistique !
N. MEYER
Données manquantes
Introduction
Définitions
Les méthodes d’analyse
Conclusion
La description des données
Après la description, l’analyse
Les méthodes sans modélisation
Imputation simple
L’algorithme EM
Imputation Multiple
La solution bayésienne
Les données manquantes sont issues d’une distribution a priori
souplesse + + +
⇒ faire des hypothèses sur les DM
mais toute les méthodes en font
similitudes avec les données aberrantes
voir exemple de prog. Bugs
N. MEYER
Données manquantes
Introduction
Définitions
Les méthodes d’analyse
Conclusion
La description des données
Après la description, l’analyse
Les méthodes sans modélisation
Imputation simple
L’algorithme EM
Imputation Multiple
Les logiciels
MINITAB : rien pour les DM
SPSS : module mais pas dans la base
SAS : différentes fonctions + PROC MI
S+ / R : CAT,MIX, NORM
A part : SIMCA : cartographie des manquants / R
WinBUGS
N. MEYER
Données manquantes
Introduction
Définitions
Les méthodes d’analyse
Conclusion
La description des données
Après la description, l’analyse
Les méthodes sans modélisation
Imputation simple
L’algorithme EM
Imputation Multiple
Les packages de R
on trouve dans R plusieurs package qui gèrent plus ou moins les
données manquantes :
mitools fait de l’IM
mice imputation multivariée par équations en chaines
mvnmle estimation du max. vrais. pour des données
gaussiennes multivariées
norm IM pour données continues par EM et data
augmentation
cat IM pour données catégorielles par EM, data augmentation
et simulations de paramètre
mix la même chose pour mélange de qualitatives et
quantitative
pan IM pour données longitudinales
ameliaII pour les sondages, les séries chronologiques,
N. MEYER
Données manquantes
Introduction
Définitions
Les méthodes d’analyse
Conclusion
La description des données
Après la description, l’analyse
Les méthodes sans modélisation
Imputation simple
L’algorithme EM
Imputation Multiple
Package Hmisc
dans le package Hmisc :
na.delete Row-wise Deletion na.action
na.detail.response Detailed Response Variable Information
na.keep Do-nothing na.action
na.pattern Variable Clustering
na.retain Summarize Data for Making Tables and Plots
naclus Variable Clustering
naplot Variable Clustering
N. MEYER
Données manquantes
Introduction
Définitions
Les méthodes d’analyse
Conclusion
La description des données
Après la description, l’analyse
Les méthodes sans modélisation
Imputation simple
L’algorithme EM
Imputation Multiple
Le package Hmisc : suite
aregImpute() Multiple Imputation using Additive Regression,
Bootstrapping, and Predictive Mean Matching
transcan() Transformations/Imputations using Canonical
Variates
arrayImpute Missing imputation for microarray data
arrayMissPattern Exploratory analysis of Missing patterns for
microarray data
EMV Estimation of Missing Values for a Data Matrix
mlmmm ML estimation under multivariate linear mixed
models with missing values
monomvn Estimation for multivariate normal data with
monotone missingness
NestedCohort Survival Analysis for Cohorts with Missing
Covariate Information
N. MEYER
Données manquantes
Introduction
Définitions
Les méthodes d’analyse
Conclusion
Conclusion
DM : un vrai problème sans (( vraie )) solution (pratique)
il faut toujours faire des hypothèses
ou faire une étude de sensibilité
qui ne conclut pas
le mieux : IM
encore mieux : bayésien
encore encore mieux : ne pas avoir de DM
N. MEYER
Données manquantes
Introduction
Définitions
Les méthodes d’analyse
Conclusion
Les ouvrages de références
Little RJA, Rubin DB : Statistical analysis with missing data,
2nd edition. John Wiley & Sons, New York 2002. Edition
récente : IM ++
Schafer JL. Analysis of Incomplete Multivariate Data
Chapman & Hall CRC 1997.
Allison PD. Missing Data Thousand Oaks, CA : Sage. 2002.
N. MEYER
Données manquantes
Téléchargement