Régression linéaire pour la prédiction de variables de type intervalle

Téléchargement

Régression linéaire pour la prédiction de variables de type

intervalle

Eufrasio de A. Lima Neto et Francisco de A.T. de Carvalho

Centro de Informatica - CIn,

Universidade Federal de Pernambuco,

Av. Prof. Luiz Freire, s/n – Cidade Universitára

CEP : 50740-540, Recife-PE, Brésil

{ealn,fatc}@cin.ufpe.br

RÉSUMÉ. Nous présentons deux approches pour ajuster une régression linéaire à des données de type intervalle.

Dans la première approche on prédit le centre et l’étendue de l’intervalle de la variable dépendante à partir de

l’ajustement de deux régressions linéaires sur respectivement, les centres et les étendues des intervalles des

variables indépendantes. Dans la deuxième approche la prévision du centre et de l’étendue de l’intervalle de la

variable dépendante est obtenue par deux régressions linéaires qui tiennent compte simultanément des centres et des

étendues des intervalles des variables indépendantes. L’évaluation de ces deux approches est basée sur l’estimation

de la moyenne du coefficient de détermination et de la racine carrée de la moyenne de la somme des carrés des

résidus pour des données synthétiques de type intervalle dans le cadre d’ une expérience Monte Carlo.

MOTS-CLÉS : Analyse des Données Symboliques, Régression Linéaire, Données de Type Intervalle.

1 Introduction

Dans un tableau de données chaque cellule contient soit une valeur numérique (correspondant à une

variable quantitative) soit une catégorie (ordonné ou non) correspondant à une variable qualitative.

L’analyse des données symboliques [BOC 03] a introduit des nouvelles variables dites « symboliques »

qui permettent de tenir compte de la variabilité et/ou de l’incertitude présente dans les données. Par

conséquent, dans un tableau de données symboliques une cellule peut contenir un intervalle, un ensemble

de catégories ou encore une distribution de poids (fréquences).

Les variables de type intervalle sont souvent rencontrées dans la pratique : un intervalle peut décrire la

plus petite et la plus grande valeur d’une mesure concernant un individu pendant une journée ou encore

l’étendue des salaires dans une entreprise. Il peut aussi indiquer que la valeur exacte d’une mesure ne peut

pas être obtenue, mais que cette valeur est dans cet intervalle.

Nous nos intéressons à l’ajustement des méthodes de régression linéaire aux données de type intervalle.

Une première approche a été présentée par [BIL 02] et il consiste à ajuster un modèle usuel de régression

linéaire sur le centre des intervalles et appliquer ce modèle aux limites inférieure et supérieure des

variables indépendantes pour prédire, respectivement, la limite inférieure et la limite supérieure de

l’intervalle de la variable dépendante.

Dans ce travail nous considérons deux autres approches dont la performance est supérieure à celle

présenté par [BIL 02]. Dans la première approche, on ajuste deux modèles usuels de régression linéaire.

Dans le premier modèle, l’estimation du centre d’un intervalle assumé par la variable dépendante est basée

sur les centres des intervalles assumés par les variables indépendantes. Dans le deuxième modèle,

l’estimation de l’étendue d’un intervalle assumé par la variable dépendante est basée sur les étendues des

intervalles assumés par les variables indépendantes. On obtient la prévision de la limite inférieure et de la

limite supérieure d’un intervalle assumé par la variable dépendante à partir de l’estimation du centre et de

l’étendue de ce même intervalle selon leur correspondant modèle de régression.

La deuxième approche diffère de la première essentiellement en ce qui concerne l’estimation du centre et

de l’étendue d’un intervalle assumé par la variable dépendante : dans ces deux cas cette estimation

maintenant est basée à la fois sur le centre et l’étendue des intervalles assumés par les variables

dépendantes. Enfin, l’évaluation de ces approches est basée sur l’estimation de la moyenne du coefficient

de détermination et de la moyenne de la racine carrée de la moyenne de la somme des carrés des résidus

(root mean squared error) dans le cadre d’un expérience Monte Carlo.

2 Description des données et des modèles

Soit E = {e1,…,en} les exemples qui sont décrit par p+1 variables de type intervalle : X1,…,Xp, Y. Chaque

exemple ei ∈ E est représenté par un vecteur d’intervalles zi = (xi1,…,xip,yi) où Xj(ei) = xij = [aij,bij] ∈ ℑ =

{[a,b] : a, b ∈ ℜ, a≤b} et Y(ei) = yi = [yiL, yiU] ∈ ℑ.

2.1 La méthode du centre (MC)

Ce méthode a été introduit par [BIL 02]. Les exemples sont décrit par p+1 variables quantitatives

X1C,…,XpC, YC qui assument comme valeur, respectivement, le centre des intervalles assumés par les

variables X1,…,Xp, Y. Chaque exemple ei ∈ E est représenté par un vecteur de valeurs réelles

ziC=(xi1C,…,xipC,yiC) où XjC(ei) = xijC = (aij + bij) /2 et YC(ei) = yiC = (yiL + yiU) /2. Le modèle est donc :

CCCC εβXy

où yC = (y1C,…,ynC)T, XC = ((x1C)T,…, (xnC)T)T, avec xiC = (1, xi1C,…,xipC)T, βC = (β0C,…, βpC)T et

εC=(ε1C,…, εnC)T. L’estimation de βC par la méthode des moindres carrées est donnée par :

()()

(

)

()

CC yXXXβ1

ˆ−

Étant donnée nouvel exemple e décrit par z = (x1,…,xp,y) et par zc = (x1C,…,xpC,yC), où xj = [aj,bj],

y=[yL,yU], xjC=(aj + bj) /2 et yC = (yL + yU) /2, la valeur y = [yL,yU] de Y sera prédite par

(

)

yβxˆ

ˆ= et

(

)

yβxˆ

ˆ=

où xL = (1, a1,…,ap)T, xU = (1, b1,…,bp)T et β = (β

ˆ0C,…, βpC)T.

2.2 Première méthode du centre et de l’étendue(MCE1)

Les exemples sont en plus décrit par décrit p+1 variables quantitatives X1R,…,XpR, YR qui assument

comme valeur, respectivement, l’étendue des intervalles assumés par les variables X1,…,Xp, Y. Chaque

exemple ei ∈ E est aussi représenté par un vecteur de valeurs réelles ziR=(xi1R,…,xipR,yiR) où XjR(ei) = xijR =

bij - aij et YR(ei) = yiR = yiU - yiL. Le modèle correspondant est donc :

RRRR εβXy

où yR = (y1R,…,ynR)T, XR = ((x1R)T,…, (xnR)T)T, avec xiR = (1, xi1R,…,xipR)T, βR = (β0R,…, βpR)T et

εR=(ε1R,…, εnR)T. L’estimation de βR par la méthode des moindres carrées est donnée par :

()()

(

)

()

RR yXXXβ1

ˆ−

Étant donnée un nouvel exemple e décrit par z = (x1,…,xp,y), par zC = (x1C,…,xpC,yC) et par

zR=(x1R,…,xpR,yR), où xj = [aj,bj], y =[yL,yU], xjC=(aj + bj) /2, xjR=bj - aj, yC = (yL + yU) /2 et yr = yU - yL, la

valeur y = [yL,yU] de Y sera prédite par

RCL yyy ˆ

)2/1(

ˆˆ −= , RCU yyy ˆ

)2/1(

ˆˆ

= avec et

yβxˆ

)(

ˆ=R

yβxˆ

)(

ˆ=

où xC = (1, x1C,…,xpC)T, xR = (1, x1R,…,xpR)T, β = (β

ˆ0C,…, βpC)T et = (β

ˆ0R,…, βpR)T.

2.3 Seconde méthode du centre et de l’étendue (MCE2)

Les exemples sont décrit par 2(p+1) variables quantitatives X1C,…,XpC, YC, X1R,…,XpR, YR qui assument

comme valeur, respectivement, le centre et l’étendue des intervalles assumés par les variables X1,…,Xp, Y.

Chaque exemple ei ∈ E est représenté par deux vecteurs de valeurs réelles ziC=(xi1C,…,xipC, xi1R,…,xipR,

yiC) et ziR=(xi1C,…,xipC, xi1R,…,xipR, yiR) où XjC(ei) = xijC = (aij + bij) /2, YC(ei) = yiC = (yiL + yiU) /2, XjR(ei) =

xijR = bij - aij et YR(ei) = yiR = yiU - yiL. Les modèles correspondant sont donc :

CCC εXβy

= et RRR εXβy

où (yC) = (y1C,…,ynC)T, (yR) = (y1R,…,ynR)T, X = ((x1)T,…, (xn)T)T, avec xi =(1,xi1C,…,xipC, xi1R,…,xipR)T,

βC= (β0C,…, β2pC)T, βR = (β0R,…, β2pR)T, εC = (ε1C,…, εnC)T et εR = (ε1R,…, εnR)T. L’estimation de βC et βR

par la méthode des moindres carrées est donné par

()()

()

CyXXXβ1

ˆ−

= et

()()

(

)

()

RyXXXβ1

ˆ−

Étant donnée un nouvel exemple e décrit par z = (x1,…,xp,y), par zC = (x1C,…,xpC, x1R,…,xpR, yC) et par zR

= (x1C,…,xpC, x1R,…,xpR, yR), où xj = [aj,bj], y =[yL,yU], xjC=(aj + bj) /2, xjR=bj - aj, yC = (yL + yU) /2 et yr =

yU - yL, la valeur y = [yL,yU] de Y sera prédite par

RCL yyy ˆ

)2/1(

ˆˆ −= , RCU yyy ˆ

)2/1(

ˆˆ

= avec et

yβxˆ

)(

ˆ=R

yβxˆ

)(

ˆ=

où x = (1, x1C,…,xpC, x1R,…,xpR)T, β = (β

ˆ0C,…, β2pC)T et = (β

ˆ0R,…, β2pR)T.

3 Évaluation des méthodes

Pour l’évaluation de ces méthodes nous considérons ici plusieurs jeux de données synthétiques de type

intervalle présentant des différents dégrées de difficultés en ce qui concerne l’ajustement d’un modèle de

régression linéaire. Ces données synthétiques sont obtenus de la façon suivante :

a) Les centres des intervalles assumés par les variables indépendantes sont obtenus par tirage

aléatoire selon une loi uniforme ;

b) Le centre d’un intervalle assumé par la variable dépendante est supposé être en relation linéaire

avec les centres des intervalles des variables indépendantes. Les coefficients et le terme d’erreur

du modèle sont obtenu par tirage aléatoire selon une loi uniforme ;

c) Une fois obtenues les centres des intervalles, les étendues correspondantes sont obtenus aussi par

tirage aléatoire selon une loi uniforme ;

d) Dans chaque réplication de l’expérience Monte Carlo, le jeu de données est divisé en un ensemble

d’apprentissage (250 observations) et un ensemble test (125 observations).

On obtient neuf différentes configurations selon deux facteurs (l’étendue et le terme d’erreur) avec des

différents degrés de variabilités : faible, moyenne et forte. Par exemple, une des configurations représente

des données de type intervalle avec une forte variabilité de l’étendue et une pauvre relation linéaire entre

la variable dépendante et les variables indépendantes du a la forte variabilité du terme d’erreur associé aux

centres des intervalles.

La performance de ces modèles (MC, MCE1 et MCE2) est basée sur l’estimation de la moyenne des

mesures suivantes : la racine carrée de la moyenne de la somme des carrés des résidus de la limite

inférieure (RMSEL), la racine carrée de la moyenne de la somme des carrés des résidus de la limite

supérieure (RMSEU), le coefficient de détermination de la limite inférieure (RL2) et le coefficient de

détermination de la limite supérieure (RU2). Ces mesures sont obtenues à partir des valeurs observées yi =

[yiL, yiU] et des valeurs prédites : ]y

ˆiUiLi =

RMSE

iLiL

∑

−

= et n

RMSE

iUiU

∑

−













Lˆ

LSS

,Cov(

yy et 













Uˆ

USS

,Cov(

Ces mesures sont estimées pour chaque modèle (MC, MCE1 et MCE2) dans le cadre d’une simulation

Monte Carlo avec 100 réplications pour chacune des 9 différentes configurations fixées avec des différents

nombres de variables indépendantes. Dans chaque réplication, on ajuste un modèle de régression linéaire

sur les données d’apprentissage selon chaque modèle (MC, MCE1 et MCE2) qui ensuite est utilisé pour

prédire la valeur de la variable dépendante sur l’ensemble test et on calcule les mesures RMSEL, RMSEU,

RL2 et RU2. Pour chacune de ces mesures, on calcule leur moyenne et l’écart type sur les 100 réplications

de la simulation Monte Carlo et la performance moyenne des différentes modèles est comparée selon un

test statistique standard de différence de moyennes. En outre, toute cette procédure est répétée considérant

100 différentes valeurs pour le vecteur de paramètres β qui lie le centre des intervalles assumés par la

variable dépendante aux centres des intervalles assumés par les variables indépendantes.

D’une façon générale, les tests statistiques indiquent, au risque de 1%, que la performance moyenne (selon

les mesures RMSEL, RMSEU, RL2 et RU2) des méthodes MCE1 et MCE2 est supérieure à celles de la

méthode MC. Aussi, la supériorité des méthodes MCE1 et MCE2 par rapport à la méthode MC est encore

plus évidente quand le nombre de variables indépendantes présentes dans le modèle augmente.

Le dégrée de variabilité de l’étendue des intervalles étant fixée, plus le dégrée de variabilité du terme

d’erreur du modèle linéaire qui lie le centre des intervalles de la variable dépendante aux centres des

intervalles des variables indépendantes diminue plus la performance moyenne des méthodes MCE1 et

MCE2 est supérieure à celle de la méthode MC. C’est-à-dire, plus la relation linéaire entre les variables est

riche plus la performance moyenne des méthodes MCE1 et MCE2 est supérieure à celle de la méthode

MC.

De l’autre coté, le dégrée de variabilité du terme d’erreur du modèle linéaire qui lie le centre des

intervalles de la variable dépendante aux centres des intervalles des variables indépendantes étant fixée,

plus le dégrée de variabilité de l’étendue des intervalles diminue, plus est semblable la performance

moyenne entre les méthodes MC, MCE1 et MCE2. C’est un résultat attendu car plus l’étendue des

intervalles s’approche de zéro, plus la méthode MC dévient un cas particulier des méthodes MCE1 et

MCE2.

Enfin, indépendamment du nombre de variables indépendantes présentes, les résultats obtenues montrent

qu’il n’y a pas de différence statistiquement significative entre la performance moyenne des méthodes

MCE1 et MCE2. Par conséquent, on va preferer la méthode MCE1 car le nombre de paramètres à être

estimé dans le cadre du modèle MCE2 est presque le double de celui à être estimé dans le cadre du modèle

MCE1.

4 Bibliographie

[BIL 02] BILLARD, L., DIDAY, E., “Regression Analysis for Interval-Valued Data”, Data Analysis,

Classification and Related Methods: Proceedings of the Seventh Conference of the International

Federation of Classification Societies, IFCS-2000, Namur (Belgium), Kiers, H.A.L. et al. Eds, 2000, p.

369—374, Springer, Berlin Heidelberg.

[BIL 03] BILLARD, L., DIDAY, E., “From the Statistics of Data to the Statistics of Knowledge:

Symbolic Data Analysis”, Journal of the American Statistical Association, vol. 98, 2003, p. 470-487.

[BOC 00] BOCK H-H., DIDAY, E., Analysis of Symbolic Data: Exploratory Methods for Extracting

Statistical Information from Complex Data, Springer, 2000.

[CAR 04] DE CARVALHO, F. A. T., LIMA NETO, E. A., TENÓRIO, C. P. “A New Method to Fit a

Linear Regression Model for Interval-Valued Data”, Advances in Artificial Intelligence: Proceedings

of the 27th German Conference on Artificial Intelligence - KI'2004. Lectures Notes on Artificial

Intelligence, LNAI 3238. Ulm (Germany), 2004, p.295 – 306, Springer, Berlin Heidelberg.

1 / 4 100%

Documents connexes

données de type intervalle

agence Intervalles

Exercices sur les intervalles

integrales

Algorithme avec une boucle « POUR »

Intervalles de confiance

∫ − ∫

Le cours - pyreach.free.fr

Génération automatique de bonnes extensions aux intervalles

Calcul d`aire par exhaustion

Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans l'interface ou les textes ? Ou savez-vous comment améliorer l'interface utilisateur de StudyLib ? N'hésitez pas à envoyer vos suggestions. C'est très important pour nous!

GDPR Confidentialité Conditions d'utilisation

Régression linéaire pour la prédiction de variables de type intervalle

Documents connexes

Faire une suggestion

Produits

Assistance

Produits

Assistance

Régression linéaire pour la prédiction de variables de type intervalle

Documents connexes

Faire une suggestion

Produits

Assistance

Ajouter ce document à la (aux) collections

Ajouter ce document à enregistré

Suggérez-nous comment améliorer StudyLib