Régression linéaire pour la prédiction de variables de type intervalle

publicité
Régression linéaire pour la prédiction de variables de type
intervalle
Eufrasio de A. Lima Neto et Francisco de A.T. de Carvalho
Centro de Informatica - CIn,
Universidade Federal de Pernambuco,
Av. Prof. Luiz Freire, s/n – Cidade Universitára
CEP : 50740-540, Recife-PE, Brésil
{ealn,fatc}@cin.ufpe.br
RÉSUMÉ. Nous présentons deux approches pour ajuster une régression linéaire à des données de type intervalle.
Dans la première approche on prédit le centre et l’étendue de l’intervalle de la variable dépendante à partir de
l’ajustement de deux régressions linéaires sur respectivement, les centres et les étendues des intervalles des
variables indépendantes. Dans la deuxième approche la prévision du centre et de l’étendue de l’intervalle de la
variable dépendante est obtenue par deux régressions linéaires qui tiennent compte simultanément des centres et des
étendues des intervalles des variables indépendantes. L’évaluation de ces deux approches est basée sur l’estimation
de la moyenne du coefficient de détermination et de la racine carrée de la moyenne de la somme des carrés des
résidus pour des données synthétiques de type intervalle dans le cadre d’ une expérience Monte Carlo.
MOTS-CLÉS : Analyse des Données Symboliques, Régression Linéaire, Données de Type Intervalle.
1
Introduction
Dans un tableau de données chaque cellule contient soit une valeur numérique (correspondant à une
variable quantitative) soit une catégorie (ordonné ou non) correspondant à une variable qualitative.
L’analyse des données symboliques [BOC 03] a introduit des nouvelles variables dites « symboliques »
qui permettent de tenir compte de la variabilité et/ou de l’incertitude présente dans les données. Par
conséquent, dans un tableau de données symboliques une cellule peut contenir un intervalle, un ensemble
de catégories ou encore une distribution de poids (fréquences).
Les variables de type intervalle sont souvent rencontrées dans la pratique : un intervalle peut décrire la
plus petite et la plus grande valeur d’une mesure concernant un individu pendant une journée ou encore
l’étendue des salaires dans une entreprise. Il peut aussi indiquer que la valeur exacte d’une mesure ne peut
pas être obtenue, mais que cette valeur est dans cet intervalle.
Nous nos intéressons à l’ajustement des méthodes de régression linéaire aux données de type intervalle.
Une première approche a été présentée par [BIL 02] et il consiste à ajuster un modèle usuel de régression
linéaire sur le centre des intervalles et appliquer ce modèle aux limites inférieure et supérieure des
variables indépendantes pour prédire, respectivement, la limite inférieure et la limite supérieure de
l’intervalle de la variable dépendante.
Dans ce travail nous considérons deux autres approches dont la performance est supérieure à celle
présenté par [BIL 02]. Dans la première approche, on ajuste deux modèles usuels de régression linéaire.
Dans le premier modèle, l’estimation du centre d’un intervalle assumé par la variable dépendante est basée
sur les centres des intervalles assumés par les variables indépendantes. Dans le deuxième modèle,
l’estimation de l’étendue d’un intervalle assumé par la variable dépendante est basée sur les étendues des
intervalles assumés par les variables indépendantes. On obtient la prévision de la limite inférieure et de la
limite supérieure d’un intervalle assumé par la variable dépendante à partir de l’estimation du centre et de
l’étendue de ce même intervalle selon leur correspondant modèle de régression.
La deuxième approche diffère de la première essentiellement en ce qui concerne l’estimation du centre et
de l’étendue d’un intervalle assumé par la variable dépendante : dans ces deux cas cette estimation
maintenant est basée à la fois sur le centre et l’étendue des intervalles assumés par les variables
dépendantes. Enfin, l’évaluation de ces approches est basée sur l’estimation de la moyenne du coefficient
de détermination et de la moyenne de la racine carrée de la moyenne de la somme des carrés des résidus
(root mean squared error) dans le cadre d’un expérience Monte Carlo.
2
Description des données et des modèles
Soit E = {e1,…,en} les exemples qui sont décrit par p+1 variables de type intervalle : X1,…,Xp, Y. Chaque
exemple ei ∈ E est représenté par un vecteur d’intervalles zi = (xi1,…,xip,yi) où Xj(ei) = xij = [aij,bij] ∈ ℑ =
{[a,b] : a, b ∈ ℜ, a≤b} et Y(ei) = yi = [yiL, yiU] ∈ ℑ.
2.1
La méthode du centre (MC)
Ce méthode a été introduit par [BIL 02]. Les exemples sont décrit par p+1 variables quantitatives
X1C,…,XpC, YC qui assument comme valeur, respectivement, le centre des intervalles assumés par les
variables X1,…,Xp, Y. Chaque exemple ei ∈ E est représenté par un vecteur de valeurs réelles
ziC=(xi1C,…,xipC,yiC) où XjC(ei) = xijC = (aij + bij) /2 et YC(ei) = yiC = (yiL + yiU) /2. Le modèle est donc :
y C = XC βC + εC
T
T
où yC = (y1C,…,ynC) , XC = ((x1C) ,…, (xnC)T)T, avec xiC = (1, xi1C,…,xipC)T, βC = (β0C,…, βpC)T et
εC=(ε1C,…, εnC)T. L’estimation de βC par la méthode des moindres carrées est donnée par :
(
)
−1
T
T
βˆ C = (X C ) (X C ) (X C ) y C
Étant donnée nouvel exemple e décrit par z = (x1,…,xp,y) et par zc = (x1C,…,xpC,yC), où xj = [aj,bj],
y=[yL,yU], xjC=(aj + bj) /2 et yC = (yL + yU) /2, la valeur y = [yL,yU] de Y sera prédite par
T
T
yˆ L = (x L ) βˆ C et yˆ U = (x U ) βˆ C
où xL = (1, a1,…,ap)T, xU = (1, b1,…,bp)T et βˆ = (β0C,…, βpC)T.
C
2.2
Première méthode du centre et de l’étendue(MCE1)
Les exemples sont en plus décrit par décrit p+1 variables quantitatives X1R,…,XpR, YR qui assument
comme valeur, respectivement, l’étendue des intervalles assumés par les variables X1,…,Xp, Y. Chaque
exemple ei ∈ E est aussi représenté par un vecteur de valeurs réelles ziR=(xi1R,…,xipR,yiR) où XjR(ei) = xijR =
bij - aij et YR(ei) = yiR = yiU - yiL. Le modèle correspondant est donc :
y R = X Rβ R + ε R
T
T
où yR = (y1R,…,ynR) , XR = ((x1R) ,…, (xnR)T)T, avec xiR = (1, xi1R,…,xipR)T, βR = (β0R,…, βpR)T et
εR=(ε1R,…, εnR)T. L’estimation de βR par la méthode des moindres carrées est donnée par :
(
)
−1
T
T
βˆ R = (X R ) (X R ) (X R ) y R
Étant donnée un nouvel exemple e décrit par z = (x1,…,xp,y), par zC = (x1C,…,xpC,yC) et par
zR=(x1R,…,xpR,yR), où xj = [aj,bj], y =[yL,yU], xjC=(aj + bj) /2, xjR=bj - aj, yC = (yL + yU) /2 et yr = yU - yL, la
valeur y = [yL,yU] de Y sera prédite par
yˆ L = yˆ C − (1 / 2) yˆ R , yˆ U = yˆ C + (1 / 2) yˆ R avec yˆ C = (x C ) T βˆ C et yˆ R = (x R ) T βˆ R
où xC = (1, x1C,…,xpC)T, xR = (1, x1R,…,xpR)T, βˆ = (β0C,…, βpC)T et β̂ = (β0R,…, βpR)T.
C
R
2.3
Seconde méthode du centre et de l’étendue (MCE2)
Les exemples sont décrit par 2(p+1) variables quantitatives X1C,…,XpC, YC, X1R,…,XpR, YR qui assument
comme valeur, respectivement, le centre et l’étendue des intervalles assumés par les variables X1,…,Xp, Y.
Chaque exemple ei ∈ E est représenté par deux vecteurs de valeurs réelles ziC=(xi1C,…,xipC, xi1R,…,xipR,
yiC) et ziR=(xi1C,…,xipC, xi1R,…,xipR, yiR) où XjC(ei) = xijC = (aij + bij) /2, YC(ei) = yiC = (yiL + yiU) /2, XjR(ei) =
xijR = bij - aij et YR(ei) = yiR = yiU - yiL. Les modèles correspondant sont donc :
y C = Xβ C + ε C et y R = Xβ R + ε R
où (yC) = (y1C,…,ynC)T, (yR) = (y1R,…,ynR)T, X = ((x1)T,…, (xn)T)T, avec xi =(1,xi1C,…,xipC, xi1R,…,xipR)T,
βC= (β0C,…, β2pC)T, βR = (β0R,…, β2pR)T, εC = (ε1C,…, εnC)T et εR = (ε1R,…, εnR)T. L’estimation de βC et βR
par la méthode des moindres carrées est donné par
(
)
(
)
−1
−1
T
T
T
T
βˆ C = (X ) (X ) (X ) y C et βˆ R = (X ) (X ) (X ) y R
Étant donnée un nouvel exemple e décrit par z = (x1,…,xp,y), par zC = (x1C,…,xpC, x1R,…,xpR, yC) et par zR
= (x1C,…,xpC, x1R,…,xpR, yR), où xj = [aj,bj], y =[yL,yU], xjC=(aj + bj) /2, xjR=bj - aj, yC = (yL + yU) /2 et yr =
yU - yL, la valeur y = [yL,yU] de Y sera prédite par
yˆ L = yˆ C − (1 / 2) yˆ R , yˆ U = yˆ C + (1 / 2) yˆ R avec yˆ C = (x) T βˆ C et yˆ R = (x) T βˆ R
où x = (1, x1C,…,xpC, x1R,…,xpR)T, βˆ C = (β0C,…, β2pC)T et β̂ R = (β0R,…, β2pR)T.
3
Évaluation des méthodes
Pour l’évaluation de ces méthodes nous considérons ici plusieurs jeux de données synthétiques de type
intervalle présentant des différents dégrées de difficultés en ce qui concerne l’ajustement d’un modèle de
régression linéaire. Ces données synthétiques sont obtenus de la façon suivante :
a) Les centres des intervalles assumés par les variables indépendantes sont obtenus par tirage
aléatoire selon une loi uniforme ;
b) Le centre d’un intervalle assumé par la variable dépendante est supposé être en relation linéaire
avec les centres des intervalles des variables indépendantes. Les coefficients et le terme d’erreur
du modèle sont obtenu par tirage aléatoire selon une loi uniforme ;
c) Une fois obtenues les centres des intervalles, les étendues correspondantes sont obtenus aussi par
tirage aléatoire selon une loi uniforme ;
d) Dans chaque réplication de l’expérience Monte Carlo, le jeu de données est divisé en un ensemble
d’apprentissage (250 observations) et un ensemble test (125 observations).
On obtient neuf différentes configurations selon deux facteurs (l’étendue et le terme d’erreur) avec des
différents degrés de variabilités : faible, moyenne et forte. Par exemple, une des configurations représente
des données de type intervalle avec une forte variabilité de l’étendue et une pauvre relation linéaire entre
la variable dépendante et les variables indépendantes du a la forte variabilité du terme d’erreur associé aux
centres des intervalles.
La performance de ces modèles (MC, MCE1 et MCE2) est basée sur l’estimation de la moyenne des
mesures suivantes : la racine carrée de la moyenne de la somme des carrés des résidus de la limite
inférieure (RMSEL), la racine carrée de la moyenne de la somme des carrés des résidus de la limite
supérieure (RMSEU), le coefficient de détermination de la limite inférieure (RL2) et le coefficient de
détermination de la limite supérieure (RU2). Ces mesures sont obtenues à partir des valeurs observées yi =
[yiL, yiU] et des valeurs prédites ŷ i = [ŷ iL , ŷ iU ] :
n
RMSE L =
∑ (y iL − ŷ iL ) 2
i =1
n
n
et RMSE U =
∑ (y
i =1
iU
− ŷ iU ) 2
n
 Cov(y , yˆ
L
L
R 2L = 
 SY S ˆ
YL
L



 et R 2 =  Cov(y U , yˆ U
U
 SY S ˆ

YU
U






Ces mesures sont estimées pour chaque modèle (MC, MCE1 et MCE2) dans le cadre d’une simulation
Monte Carlo avec 100 réplications pour chacune des 9 différentes configurations fixées avec des différents
nombres de variables indépendantes. Dans chaque réplication, on ajuste un modèle de régression linéaire
sur les données d’apprentissage selon chaque modèle (MC, MCE1 et MCE2) qui ensuite est utilisé pour
prédire la valeur de la variable dépendante sur l’ensemble test et on calcule les mesures RMSEL, RMSEU,
RL2 et RU2. Pour chacune de ces mesures, on calcule leur moyenne et l’écart type sur les 100 réplications
de la simulation Monte Carlo et la performance moyenne des différentes modèles est comparée selon un
test statistique standard de différence de moyennes. En outre, toute cette procédure est répétée considérant
100 différentes valeurs pour le vecteur de paramètres β qui lie le centre des intervalles assumés par la
variable dépendante aux centres des intervalles assumés par les variables indépendantes.
D’une façon générale, les tests statistiques indiquent, au risque de 1%, que la performance moyenne (selon
les mesures RMSEL, RMSEU, RL2 et RU2) des méthodes MCE1 et MCE2 est supérieure à celles de la
méthode MC. Aussi, la supériorité des méthodes MCE1 et MCE2 par rapport à la méthode MC est encore
plus évidente quand le nombre de variables indépendantes présentes dans le modèle augmente.
Le dégrée de variabilité de l’étendue des intervalles étant fixée, plus le dégrée de variabilité du terme
d’erreur du modèle linéaire qui lie le centre des intervalles de la variable dépendante aux centres des
intervalles des variables indépendantes diminue plus la performance moyenne des méthodes MCE1 et
MCE2 est supérieure à celle de la méthode MC. C’est-à-dire, plus la relation linéaire entre les variables est
riche plus la performance moyenne des méthodes MCE1 et MCE2 est supérieure à celle de la méthode
MC.
De l’autre coté, le dégrée de variabilité du terme d’erreur du modèle linéaire qui lie le centre des
intervalles de la variable dépendante aux centres des intervalles des variables indépendantes étant fixée,
plus le dégrée de variabilité de l’étendue des intervalles diminue, plus est semblable la performance
moyenne entre les méthodes MC, MCE1 et MCE2. C’est un résultat attendu car plus l’étendue des
intervalles s’approche de zéro, plus la méthode MC dévient un cas particulier des méthodes MCE1 et
MCE2.
Enfin, indépendamment du nombre de variables indépendantes présentes, les résultats obtenues montrent
qu’il n’y a pas de différence statistiquement significative entre la performance moyenne des méthodes
MCE1 et MCE2. Par conséquent, on va preferer la méthode MCE1 car le nombre de paramètres à être
estimé dans le cadre du modèle MCE2 est presque le double de celui à être estimé dans le cadre du modèle
MCE1.
4
Bibliographie
[BIL 02] BILLARD, L., DIDAY, E., “Regression Analysis for Interval-Valued Data”, Data Analysis,
Classification and Related Methods: Proceedings of the Seventh Conference of the International
Federation of Classification Societies, IFCS-2000, Namur (Belgium), Kiers, H.A.L. et al. Eds, 2000, p.
369—374, Springer, Berlin Heidelberg.
[BIL 03] BILLARD, L., DIDAY, E., “From the Statistics of Data to the Statistics of Knowledge:
Symbolic Data Analysis”, Journal of the American Statistical Association, vol. 98, 2003, p. 470-487.
[BOC 00] BOCK H-H., DIDAY, E., Analysis of Symbolic Data: Exploratory Methods for Extracting
Statistical Information from Complex Data, Springer, 2000.
[CAR 04] DE CARVALHO, F. A. T., LIMA NETO, E. A., TENÓRIO, C. P. “A New Method to Fit a
Linear Regression Model for Interval-Valued Data”, Advances in Artificial Intelligence: Proceedings
of the 27th German Conference on Artificial Intelligence - KI'2004. Lectures Notes on Artificial
Intelligence, LNAI 3238. Ulm (Germany), 2004, p.295 – 306, Springer, Berlin Heidelberg.
Téléchargement