Régression linéaire pour la prédiction de variables de type intervalle Eufrasio de A. Lima Neto et Francisco de A.T. de Carvalho Centro de Informatica - CIn, Universidade Federal de Pernambuco, Av. Prof. Luiz Freire, s/n – Cidade Universitára CEP : 50740-540, Recife-PE, Brésil {ealn,fatc}@cin.ufpe.br RÉSUMÉ. Nous présentons deux approches pour ajuster une régression linéaire à des données de type intervalle. Dans la première approche on prédit le centre et l’étendue de l’intervalle de la variable dépendante à partir de l’ajustement de deux régressions linéaires sur respectivement, les centres et les étendues des intervalles des variables indépendantes. Dans la deuxième approche la prévision du centre et de l’étendue de l’intervalle de la variable dépendante est obtenue par deux régressions linéaires qui tiennent compte simultanément des centres et des étendues des intervalles des variables indépendantes. L’évaluation de ces deux approches est basée sur l’estimation de la moyenne du coefficient de détermination et de la racine carrée de la moyenne de la somme des carrés des résidus pour des données synthétiques de type intervalle dans le cadre d’ une expérience Monte Carlo. MOTS-CLÉS : Analyse des Données Symboliques, Régression Linéaire, Données de Type Intervalle. 1 Introduction Dans un tableau de données chaque cellule contient soit une valeur numérique (correspondant à une variable quantitative) soit une catégorie (ordonné ou non) correspondant à une variable qualitative. L’analyse des données symboliques [BOC 03] a introduit des nouvelles variables dites « symboliques » qui permettent de tenir compte de la variabilité et/ou de l’incertitude présente dans les données. Par conséquent, dans un tableau de données symboliques une cellule peut contenir un intervalle, un ensemble de catégories ou encore une distribution de poids (fréquences). Les variables de type intervalle sont souvent rencontrées dans la pratique : un intervalle peut décrire la plus petite et la plus grande valeur d’une mesure concernant un individu pendant une journée ou encore l’étendue des salaires dans une entreprise. Il peut aussi indiquer que la valeur exacte d’une mesure ne peut pas être obtenue, mais que cette valeur est dans cet intervalle. Nous nos intéressons à l’ajustement des méthodes de régression linéaire aux données de type intervalle. Une première approche a été présentée par [BIL 02] et il consiste à ajuster un modèle usuel de régression linéaire sur le centre des intervalles et appliquer ce modèle aux limites inférieure et supérieure des variables indépendantes pour prédire, respectivement, la limite inférieure et la limite supérieure de l’intervalle de la variable dépendante. Dans ce travail nous considérons deux autres approches dont la performance est supérieure à celle présenté par [BIL 02]. Dans la première approche, on ajuste deux modèles usuels de régression linéaire. Dans le premier modèle, l’estimation du centre d’un intervalle assumé par la variable dépendante est basée sur les centres des intervalles assumés par les variables indépendantes. Dans le deuxième modèle, l’estimation de l’étendue d’un intervalle assumé par la variable dépendante est basée sur les étendues des intervalles assumés par les variables indépendantes. On obtient la prévision de la limite inférieure et de la limite supérieure d’un intervalle assumé par la variable dépendante à partir de l’estimation du centre et de l’étendue de ce même intervalle selon leur correspondant modèle de régression. La deuxième approche diffère de la première essentiellement en ce qui concerne l’estimation du centre et de l’étendue d’un intervalle assumé par la variable dépendante : dans ces deux cas cette estimation maintenant est basée à la fois sur le centre et l’étendue des intervalles assumés par les variables dépendantes. Enfin, l’évaluation de ces approches est basée sur l’estimation de la moyenne du coefficient de détermination et de la moyenne de la racine carrée de la moyenne de la somme des carrés des résidus (root mean squared error) dans le cadre d’un expérience Monte Carlo. 2 Description des données et des modèles Soit E = {e1,…,en} les exemples qui sont décrit par p+1 variables de type intervalle : X1,…,Xp, Y. Chaque exemple ei ∈ E est représenté par un vecteur d’intervalles zi = (xi1,…,xip,yi) où Xj(ei) = xij = [aij,bij] ∈ ℑ = {[a,b] : a, b ∈ ℜ, a≤b} et Y(ei) = yi = [yiL, yiU] ∈ ℑ. 2.1 La méthode du centre (MC) Ce méthode a été introduit par [BIL 02]. Les exemples sont décrit par p+1 variables quantitatives X1C,…,XpC, YC qui assument comme valeur, respectivement, le centre des intervalles assumés par les variables X1,…,Xp, Y. Chaque exemple ei ∈ E est représenté par un vecteur de valeurs réelles ziC=(xi1C,…,xipC,yiC) où XjC(ei) = xijC = (aij + bij) /2 et YC(ei) = yiC = (yiL + yiU) /2. Le modèle est donc : y C = XC βC + εC T T où yC = (y1C,…,ynC) , XC = ((x1C) ,…, (xnC)T)T, avec xiC = (1, xi1C,…,xipC)T, βC = (β0C,…, βpC)T et εC=(ε1C,…, εnC)T. L’estimation de βC par la méthode des moindres carrées est donnée par : ( ) −1 T T βˆ C = (X C ) (X C ) (X C ) y C Étant donnée nouvel exemple e décrit par z = (x1,…,xp,y) et par zc = (x1C,…,xpC,yC), où xj = [aj,bj], y=[yL,yU], xjC=(aj + bj) /2 et yC = (yL + yU) /2, la valeur y = [yL,yU] de Y sera prédite par T T yˆ L = (x L ) βˆ C et yˆ U = (x U ) βˆ C où xL = (1, a1,…,ap)T, xU = (1, b1,…,bp)T et βˆ = (β0C,…, βpC)T. C 2.2 Première méthode du centre et de l’étendue(MCE1) Les exemples sont en plus décrit par décrit p+1 variables quantitatives X1R,…,XpR, YR qui assument comme valeur, respectivement, l’étendue des intervalles assumés par les variables X1,…,Xp, Y. Chaque exemple ei ∈ E est aussi représenté par un vecteur de valeurs réelles ziR=(xi1R,…,xipR,yiR) où XjR(ei) = xijR = bij - aij et YR(ei) = yiR = yiU - yiL. Le modèle correspondant est donc : y R = X Rβ R + ε R T T où yR = (y1R,…,ynR) , XR = ((x1R) ,…, (xnR)T)T, avec xiR = (1, xi1R,…,xipR)T, βR = (β0R,…, βpR)T et εR=(ε1R,…, εnR)T. L’estimation de βR par la méthode des moindres carrées est donnée par : ( ) −1 T T βˆ R = (X R ) (X R ) (X R ) y R Étant donnée un nouvel exemple e décrit par z = (x1,…,xp,y), par zC = (x1C,…,xpC,yC) et par zR=(x1R,…,xpR,yR), où xj = [aj,bj], y =[yL,yU], xjC=(aj + bj) /2, xjR=bj - aj, yC = (yL + yU) /2 et yr = yU - yL, la valeur y = [yL,yU] de Y sera prédite par yˆ L = yˆ C − (1 / 2) yˆ R , yˆ U = yˆ C + (1 / 2) yˆ R avec yˆ C = (x C ) T βˆ C et yˆ R = (x R ) T βˆ R où xC = (1, x1C,…,xpC)T, xR = (1, x1R,…,xpR)T, βˆ = (β0C,…, βpC)T et β̂ = (β0R,…, βpR)T. C R 2.3 Seconde méthode du centre et de l’étendue (MCE2) Les exemples sont décrit par 2(p+1) variables quantitatives X1C,…,XpC, YC, X1R,…,XpR, YR qui assument comme valeur, respectivement, le centre et l’étendue des intervalles assumés par les variables X1,…,Xp, Y. Chaque exemple ei ∈ E est représenté par deux vecteurs de valeurs réelles ziC=(xi1C,…,xipC, xi1R,…,xipR, yiC) et ziR=(xi1C,…,xipC, xi1R,…,xipR, yiR) où XjC(ei) = xijC = (aij + bij) /2, YC(ei) = yiC = (yiL + yiU) /2, XjR(ei) = xijR = bij - aij et YR(ei) = yiR = yiU - yiL. Les modèles correspondant sont donc : y C = Xβ C + ε C et y R = Xβ R + ε R où (yC) = (y1C,…,ynC)T, (yR) = (y1R,…,ynR)T, X = ((x1)T,…, (xn)T)T, avec xi =(1,xi1C,…,xipC, xi1R,…,xipR)T, βC= (β0C,…, β2pC)T, βR = (β0R,…, β2pR)T, εC = (ε1C,…, εnC)T et εR = (ε1R,…, εnR)T. L’estimation de βC et βR par la méthode des moindres carrées est donné par ( ) ( ) −1 −1 T T T T βˆ C = (X ) (X ) (X ) y C et βˆ R = (X ) (X ) (X ) y R Étant donnée un nouvel exemple e décrit par z = (x1,…,xp,y), par zC = (x1C,…,xpC, x1R,…,xpR, yC) et par zR = (x1C,…,xpC, x1R,…,xpR, yR), où xj = [aj,bj], y =[yL,yU], xjC=(aj + bj) /2, xjR=bj - aj, yC = (yL + yU) /2 et yr = yU - yL, la valeur y = [yL,yU] de Y sera prédite par yˆ L = yˆ C − (1 / 2) yˆ R , yˆ U = yˆ C + (1 / 2) yˆ R avec yˆ C = (x) T βˆ C et yˆ R = (x) T βˆ R où x = (1, x1C,…,xpC, x1R,…,xpR)T, βˆ C = (β0C,…, β2pC)T et β̂ R = (β0R,…, β2pR)T. 3 Évaluation des méthodes Pour l’évaluation de ces méthodes nous considérons ici plusieurs jeux de données synthétiques de type intervalle présentant des différents dégrées de difficultés en ce qui concerne l’ajustement d’un modèle de régression linéaire. Ces données synthétiques sont obtenus de la façon suivante : a) Les centres des intervalles assumés par les variables indépendantes sont obtenus par tirage aléatoire selon une loi uniforme ; b) Le centre d’un intervalle assumé par la variable dépendante est supposé être en relation linéaire avec les centres des intervalles des variables indépendantes. Les coefficients et le terme d’erreur du modèle sont obtenu par tirage aléatoire selon une loi uniforme ; c) Une fois obtenues les centres des intervalles, les étendues correspondantes sont obtenus aussi par tirage aléatoire selon une loi uniforme ; d) Dans chaque réplication de l’expérience Monte Carlo, le jeu de données est divisé en un ensemble d’apprentissage (250 observations) et un ensemble test (125 observations). On obtient neuf différentes configurations selon deux facteurs (l’étendue et le terme d’erreur) avec des différents degrés de variabilités : faible, moyenne et forte. Par exemple, une des configurations représente des données de type intervalle avec une forte variabilité de l’étendue et une pauvre relation linéaire entre la variable dépendante et les variables indépendantes du a la forte variabilité du terme d’erreur associé aux centres des intervalles. La performance de ces modèles (MC, MCE1 et MCE2) est basée sur l’estimation de la moyenne des mesures suivantes : la racine carrée de la moyenne de la somme des carrés des résidus de la limite inférieure (RMSEL), la racine carrée de la moyenne de la somme des carrés des résidus de la limite supérieure (RMSEU), le coefficient de détermination de la limite inférieure (RL2) et le coefficient de détermination de la limite supérieure (RU2). Ces mesures sont obtenues à partir des valeurs observées yi = [yiL, yiU] et des valeurs prédites ŷ i = [ŷ iL , ŷ iU ] : n RMSE L = ∑ (y iL − ŷ iL ) 2 i =1 n n et RMSE U = ∑ (y i =1 iU − ŷ iU ) 2 n Cov(y , yˆ L L R 2L = SY S ˆ YL L et R 2 = Cov(y U , yˆ U U SY S ˆ YU U Ces mesures sont estimées pour chaque modèle (MC, MCE1 et MCE2) dans le cadre d’une simulation Monte Carlo avec 100 réplications pour chacune des 9 différentes configurations fixées avec des différents nombres de variables indépendantes. Dans chaque réplication, on ajuste un modèle de régression linéaire sur les données d’apprentissage selon chaque modèle (MC, MCE1 et MCE2) qui ensuite est utilisé pour prédire la valeur de la variable dépendante sur l’ensemble test et on calcule les mesures RMSEL, RMSEU, RL2 et RU2. Pour chacune de ces mesures, on calcule leur moyenne et l’écart type sur les 100 réplications de la simulation Monte Carlo et la performance moyenne des différentes modèles est comparée selon un test statistique standard de différence de moyennes. En outre, toute cette procédure est répétée considérant 100 différentes valeurs pour le vecteur de paramètres β qui lie le centre des intervalles assumés par la variable dépendante aux centres des intervalles assumés par les variables indépendantes. D’une façon générale, les tests statistiques indiquent, au risque de 1%, que la performance moyenne (selon les mesures RMSEL, RMSEU, RL2 et RU2) des méthodes MCE1 et MCE2 est supérieure à celles de la méthode MC. Aussi, la supériorité des méthodes MCE1 et MCE2 par rapport à la méthode MC est encore plus évidente quand le nombre de variables indépendantes présentes dans le modèle augmente. Le dégrée de variabilité de l’étendue des intervalles étant fixée, plus le dégrée de variabilité du terme d’erreur du modèle linéaire qui lie le centre des intervalles de la variable dépendante aux centres des intervalles des variables indépendantes diminue plus la performance moyenne des méthodes MCE1 et MCE2 est supérieure à celle de la méthode MC. C’est-à-dire, plus la relation linéaire entre les variables est riche plus la performance moyenne des méthodes MCE1 et MCE2 est supérieure à celle de la méthode MC. De l’autre coté, le dégrée de variabilité du terme d’erreur du modèle linéaire qui lie le centre des intervalles de la variable dépendante aux centres des intervalles des variables indépendantes étant fixée, plus le dégrée de variabilité de l’étendue des intervalles diminue, plus est semblable la performance moyenne entre les méthodes MC, MCE1 et MCE2. C’est un résultat attendu car plus l’étendue des intervalles s’approche de zéro, plus la méthode MC dévient un cas particulier des méthodes MCE1 et MCE2. Enfin, indépendamment du nombre de variables indépendantes présentes, les résultats obtenues montrent qu’il n’y a pas de différence statistiquement significative entre la performance moyenne des méthodes MCE1 et MCE2. Par conséquent, on va preferer la méthode MCE1 car le nombre de paramètres à être estimé dans le cadre du modèle MCE2 est presque le double de celui à être estimé dans le cadre du modèle MCE1. 4 Bibliographie [BIL 02] BILLARD, L., DIDAY, E., “Regression Analysis for Interval-Valued Data”, Data Analysis, Classification and Related Methods: Proceedings of the Seventh Conference of the International Federation of Classification Societies, IFCS-2000, Namur (Belgium), Kiers, H.A.L. et al. Eds, 2000, p. 369—374, Springer, Berlin Heidelberg. [BIL 03] BILLARD, L., DIDAY, E., “From the Statistics of Data to the Statistics of Knowledge: Symbolic Data Analysis”, Journal of the American Statistical Association, vol. 98, 2003, p. 470-487. [BOC 00] BOCK H-H., DIDAY, E., Analysis of Symbolic Data: Exploratory Methods for Extracting Statistical Information from Complex Data, Springer, 2000. [CAR 04] DE CARVALHO, F. A. T., LIMA NETO, E. A., TENÓRIO, C. P. “A New Method to Fit a Linear Regression Model for Interval-Valued Data”, Advances in Artificial Intelligence: Proceedings of the 27th German Conference on Artificial Intelligence - KI'2004. Lectures Notes on Artificial Intelligence, LNAI 3238. Ulm (Germany), 2004, p.295 – 306, Springer, Berlin Heidelberg.