Le forage de données

publicité
MTI820 −Entrepôts dedonnéesetintelligenced’affaires
Leforagededonnées
DépartementdegénielogicieletdesTI
MTI820Hiver2011– ©S.Chafki,C.Desrosiers
1
Leforagededonnées
• « Datamining will become much moreimportantand
companies will throw away nothing abouttheir
customers because it will be so valuable.Ifyou’re not
…doing this,you’re outofbusiness »
– Dr.ArnoPenzias,lauréatd’unprixNobelenphysiqueetancien
scientifiqueenchefdeBellLabs,enréponse àlaquestion:« What will
be thekillerapplicationsinthecorporation? »,ComputerWorld,
janvier1999
• 1.2Zettaoctets (1021 octets)
– Laquantitéd’informationnumériquecrééeen2010
DépartementdegénielogicieletdesTI
MTI820Hiver2011– ©S.Chafki,C.Desrosiers
2
Leforagededonnées
• Datamining /knowledge discovery:
– Ensembledeprocessusetdeméthodesutilisantdes
techniquesdestatistiquesetd’intelligenceartificielle
pouridentifieretextrairedel’informationetdes
connaissances nouvellesetutiles(patrons)àpartirde
grandesquantitésdedonnées.
DépartementdegénielogicieletdesTI
MTI820Hiver2011– ©S.Chafki,C.Desrosiers
3
Leforagededonnées
• Exemplesréels(W.Eckerson,Predictive Analytics,2007):
– Unebanquecanadienne utilisel’analyse prédictivepour
augmenterde600%letauxderéponseàunecampagne
publicitaire,réduiredemoitiélecoûtd’acquisitiondenouveaux
clients,etaugmenterde100%leROIdelacampagne;
– Unegrandeuniversitéaméricainepréditsiunétudiantvachoisir
des’inscrireenappliquantdesmodèles d’analyseprédictivesur
lesdonnées descandidatsetl’historiqued’admission;
– Unecompagnieaérienne aaugmentésesrevenusetletauxde
satisfactiondesesclientsenestimantmieuxlenombrede
passagersneseprésentantpasàuncertainvol(gestionde
l’overbooking).
DépartementdegénielogicieletdesTI
MTI820Hiver2011– ©S.Chafki,C.Desrosiers
4
Question
• Quelssontlesfacteurspoussantlesentreprisesàsetourner
deplusenplusversleforagededonnées?
DépartementdegénielogicieletdesTI
MTI820Hiver2011– ©S.Chafki,C.Desrosiers
5
Leforagededonnées
• Utilisationgrandissanteenentreprise:
– Accroissementdelacompétitionàl’échelleglobale,dictéepar
l’évolutionconstantedesbesoinsdesutilisateursdansunmarché
deplusenplussaturé;
– Reconnaissancegénéraledelavaleurinexploitéedesinformations
cachéesdansdegrandessourcesdedonnées;
– Laconsolidationetl’intégrationdesdonnées,permettantunevue
uniquedesclients,vendeurs,transactions,etc.
– Lacroissanceexponentielledelacapacitédestechnologies
matériellesetlogiciellespourlestockageetletraitementde
données,coupléeaveclaréductionimportanteducoûtdeces
technologies;
– Mouvementdedé-massification(conversiondel’informationen
formesnonphysiques)despratiquesd’affaires.
DépartementdegénielogicieletdesTI
MTI820Hiver2011– ©S.Chafki,C.Desrosiers
6
Exemplesd’applications
Domaine
Gestion derelation
avecles clients (CRM)
Bancaire
Vente audétail et
logistique
Exemplesd’applications
•
Identifier lesrépondants les plusprobables àunnouveau produit/nouvelle
campagne (profilage declients);
•
Comprendre lesprincipales causes dudépart declients afind’améliorer letaux de
rétention;
•
Découvrir desassociations évolutives entre certains produitsetservices, afinde
maximiser lesventes etlavaleur desclients;
•
Identifier lesclients les plusprofitables etleurs besoinsafinderenforcer les
relations avecceux-ci etmaximiser lesventes.
•
Automatiser le processus d’application àunprêten prédisant lesmauvais payeurs;
•
Détecter destransactions etcartes decrédits frauduleuses;
•
Optimiser les revenusenprédisant correctement les transactions desdifférentes
entités bancaires (ATM,succursales, etc.).
•
Prédire correctement le volume deventesàdifférentspointsdevente, afinde
pouvoirgérer efficacement l’inventaire;
•
Identifier lesassociations entre lesventes decertains produits(analyse depaniers
demarché), afind’optimiser ladisposition desproduits enmagasin etaccroître les
ventes;
•
Découvrir despatronsintéressants dansle déplacement desproduits ayantun
tempsdevie limité (ex:aliments), en analysant desdonnées RFID.
DépartementdegénielogicieletdesTI
MTI820Hiver2011– ©S.Chafki,C.Desrosiers
7
Exemplesd’applications
Domaine
Manufacturieretde
laproduction
Bourse
Exemplesd’applications
•
Prédirelesdéfaillancesdesmachinesavantqu’ellesnesurviennent;
•
Identifierdesanomalies danslessystèmesmanufacturierspourmaximiser
laproduction.
•
Prédirelemomentetlaquantitéduchangement d’unactif;
•
Identifieretprévenirlesactivitésfrauduleuses.
•
Prédirelesmontantsdesréclamationsafindedévelopperdesplans
avantageuxquiminimisentlesrisquesetmaximisentlesprofits.
•
Identifieretprévenirlesréclamationsfrauduleuses.
•
Identifierdesrelationsentredessymptômesetdesmaladiesafind’assister
lesmédecins àdiagnostiquerlespatients;
•
Identifiercertainspatronsmoléculairesayantuneinfluencesurcertaines
maladies(ex:cancer),afindefaciliterledéveloppementdenouveaux
médicamentsettraitements.
•
Identifierdespatronsdansles comportementsdeterroristes(ex:transfert
d’argent,communication,etc.);
•
Prédireletauxetl’endroitd’occurrencededifférentscrimes,afin
d’optimiserladispersiondesforcespolicières.
Assurances
Santé
Sécurité
DépartementdegénielogicieletdesTI
MTI820Hiver2011– ©S.Chafki,C.Desrosiers
8
Leforagededonnées
Other
Supply chain
Surveys
Quality improvement
Customer service
12%
17%
18%
25%
26%
Demand planning
30%
Pricing
30%
Promotions
Fraud detection
31%
32%
40%
Attrition/churn/retention
Budgeting and forecasting
41%
Customer acquisition
41%
46%
Campaign management
Cross-sell/upsell
47%
W.Eckerson,PredictiveAnalytics– ExtendingtheValueofyourDataWarehousingInvestment,2007
DépartementdegénielogicieletdesTI
MTI820Hiver2011– ©S.Chafki,C.Desrosiers
9
Questions
• Quelssontlestypededonnéesutiliséesenforagede
données?
• Quelstypesdepatronsveut-ontrouver?
DépartementdegénielogicieletdesTI
MTI820Hiver2011– ©S.Chafki,C.Desrosiers
10
Lestypesdedonnées
• Donnéescatégoriques:
– Variablesdiscrètespouvantprendreunnombrelimitédevaleurs;
– Serventàdiviserlesdonnéesendifférentsgroupes;
– Ex:sexe,grouped’âge,niveaud’éducation;
– Proviennentsouventdelaconversiond’unevariablenumérique
(ex:conversiondeâge engrouped’âge);
– Peuventêtrenominales:
• Servent uniquementàidentifier lacatégorie(aucunenotionde
mesure);
• Ex:étatcivil(marié,célibataire,divorcé).
– Ouordinales:
• Ajoutentlanotiond’ordreentrelesvaleurspossibles;
• Ex:indicedesolvabilité(bas,moyen,élevé).
DépartementdegénielogicieletdesTI
MTI820Hiver2011– ©S.Chafki,C.Desrosiers
11
Lestypesdedonnées
• Donnéesnumériques:
– Variablesdiscrètesoucontinuesservantàmesurerunecertaine
quantité;
– Ex:âge,nombred’enfants,revenufamilial,etc.;
– Peuventavoiruneprécisionvariable
• Ex:longueur(1m,1.4m,1.45m,1.456m,etc.).
• Sériestemporelles:
– Valeursnumériques mesurantuncertainphénomène à
intervallesdetempsréguliers;
– Ex:revenusàchaquetrimestre,nombredeventesàchaque
semaine, etc.
• Autresdonnées:
– Ex:images,audio,texte,etc.
DépartementdegénielogicieletdesTI
MTI820Hiver2011– ©S.Chafki,C.Desrosiers
12
Question
• Lesdonnées suivantessont-ellesnominales,ordinalesou
numériques?
1. L’évaluationd’unproduitparunclient(i.e.,user-item rating)
2. Lacatégoried’unproduit
3. Lequantitécommandée
4. Legroupesalariald’unclient
DépartementdegénielogicieletdesTI
MTI820Hiver2011– ©S.Chafki,C.Desrosiers
13
Typesdepatrons
• Règlesdedécision:
– Règleslogiquesoualgébriquespermettantdeséparerles
exemples enplusieursclassesconnues;
– Ex:transactionsnormales/frauduleuses, clientsintéressés/nonintéressés;
• Règlesd’association:
– Ensembles d’itemsquisurviennent fréquemment enmême
temps;
– Ex:analysedespaniersdemarché.
DépartementdegénielogicieletdesTI
MTI820Hiver2011– ©S.Chafki,C.Desrosiers
14
Typesdepatrons
• Récurrencestemporelles:
– Patronsrécurrentsdansletempspermettantdeprédiredes
valeursfutures;
– Sebasesurdesdonnées historiques;
– Ex:prédirelesventesd’uncertainproduitàlamême datel’an
prochain,ensebasantsurlesventespasséesdeceproduit.
• Relationsséquentielles:
– Séried’événements ordonnésdansletemps;
– Ex:prédirequelesclientsd’unebanqueayantdéjàuncompte
chèquesouvrirontuncompteépargnesuivid’uncompte
investissement àl’intérieurd’uneannée.
DépartementdegénielogicieletdesTI
MTI820Hiver2011– ©S.Chafki,C.Desrosiers
15
Typesdepatrons
• Groupeshomogènes(clusters):
– Groupesnaturelsd’objetsayantdescaractéristiquescommunes;
– Ex:groupesdeclientsayantdescomportements d’achat
similaires.
DépartementdegénielogicieletdesTI
MTI820Hiver2011– ©S.Chafki,C.Desrosiers
16
Question
• Àqueltypedepatroncorrespondlesproblèmessuivants?
1. Identifierlesrépondantslesplusprobablesàunnouveau
produit/nouvelle campagne;
2. Détecterdestransactionsetcartesdecréditfrauduleuses;
3. Identifierlesassociationsentrelesventesdecertainsproduits
afind’optimiserladispositiondesproduitsenmagasinet
accroîtrelesventes;
4. Découvrirdespatronsintéressantsdansledéplacement des
produitsayantuntempsdevielimité(ex:aliments),en
analysantdesdonnées RFID;
5. Identifierlesdifférentssegmentd’unmarché.
DépartementdegénielogicieletdesTI
MTI820Hiver2011– ©S.Chafki,C.Desrosiers
17
Questions
• Quellessontlesprincipalesétapesduprocessusdeforagede
données?
DépartementdegénielogicieletdesTI
MTI820Hiver2011– ©S.Chafki,C.Desrosiers
18
Processusdeforagededonnées
• ProcessusCross-Industry StandardProcess forDataMining
(CRISP)*:
1.Compréhension
dudomaine
d’affaires
2.Compréhension
desdonnées
6.Déploiement
Données
5.Testset
évaluation
3.Préparationdes
données
4.Conceptiondu
modèle
*consortiumdecompagnieseuropéennes
DépartementdegénielogicieletdesTI
MTI820Hiver2011– ©S.Chafki,C.Desrosiers
19
Processusdeforagededonnées
1. Compréhension dudomained’affaires:
– Comprendrelesbesoinsdesutilisateursd’affairesetlesobjectifs
d’affairesdel’entreprise;
– Faitàl’étapedespécificationdesbesoins.
2. Compréhension desdonnées:
– Identifierlesdonnéespertinentesdansl’entrepôtetlessources;
– Identifierlesvariableslespluspertinentesetcomprendrela
significationdecesvariables;
– Analyserlesvariablesetleursinterdépendances:
• Ex:min/max,moyenne,variances, corrélations,etc.
– Caractériserlesvariables:
• Quantitatives(ex:numériques, catégoriques) ou
• Qualitatives(ex:distributiondeprobabilité).
DépartementdegénielogicieletdesTI
MTI820Hiver2011– ©S.Chafki,C.Desrosiers
20
Processusdeforagededonnées
3. Préparationdesdonnées:
Donnéesbrutes
Consolidation
•
•
•
Recueillir lesdonnées;
Sélectionner lesdonnées;
Intégrer les données.
Nettoyage
•
•
•
Assigner les valeursmanquantes;
Réduire lebruit danslesdonnées;
Éliminer lesincohérences.
•
•
•
Normaliser les données;
Discrétiser /agréger les données;
Construire denouveaux attributs.
•
•
Réduire lenombre devariables (ex:PCA);
Réduire lenombre d’exemples (ex:
échantillonage).
Transformation
Réduction
Donnéesbien
formées
DépartementdegénielogicieletdesTI
MTI820Hiver2011– ©S.Chafki,C.Desrosiers
21
Processusdeforagededonnées
4. Développement dumodèle:
– Sélectiondequelquesapprochespertinentes,tenantcomptedela
tâche,dutypededonnées,etdesperformancessouhaitées;
– Entraînementdesmodèles aveclesdonnéespréparées.
5. Testsetévaluation:
– Sélectiondumeilleur modèle etdesesparamètresoptimauxen
fonctiondemétriquesdeperformance
• Ex:RMSE(régression),précision/rappel (classification),etc.
– Évaluationparunexpertdespatronsidentifiésenapprentissage
non-supervisé (ex:clusters,règlesd’association,etc.)
6. Déploiement, suivietmaintenancedel’application
DépartementdegénielogicieletdesTI
MTI820Hiver2011– ©S.Chafki,C.Desrosiers
22
Techniquesdepréparationdesdonnées
Tâche
Techniquespopulaires
Remplirlesdonnées
manquantes
Assignerauxvaleursmanquantes unevaleurdéfaut(ex:min/max,
moyenne,médiane,etc.).
Réduirelebruitet
éliminer lesdonnées
erronées
Identifier lesdonnéesaberrantes(ex:clustering +déviation)etéliminerou
modifiercesdonnées;
Normaliser les
données
Modifierles valeurspourannulerl’effetdelamoyenneetpourquelles
tombentdansunintervallefixe(ex:z-score)
Discrétiser /agréger
lesdonnées
Convertirlesvaleursnumériqueenunereprésentationdiscrète(ex:
partitionnementparintervallesfixesouparfréquence).
Construirede
nouveaux attributs
Dériverdenouveauxattributsàpartirdesattributsexistantsàl’aide
d’opérationsmathématiques(ex:Term Frequency - InverseDocument
Frequency ou TF-IDF)
Réduire lesnombre
d’attributs
Choisirlesattributsayantleplusd’influencesurlavariabledécisionnelle ou
éliminerlesattributscorrélés(ex:analyseen composantes
principales/indépendantes, test Chi-square,inductionpararbrede
décision,etc.)
Réduirelenombre
d’exemples
Ex:échantillonnage aléatoire,stratifié,etc.
DépartementdegénielogicieletdesTI
MTI820Hiver2011– ©S.Chafki,C.Desrosiers
23
Questions
• Quellessontlesprincipalestâchesdeforagededonnées?
• Àqueltyped’apprentissageautomatiquecestâches
correspondent-elles?
• Quelssontlesprincipauxalgorithmespourrésoudreces
tâches?
DépartementdegénielogicieletdesTI
MTI820Hiver2011– ©S.Chafki,C.Desrosiers
24
Apprentissageautomatique
• Basésurlesstatistiquesetl’intelligenceartificielle;
• Permetauxordinateursd’apprendre certainesrèglesàpartir
d’exemples, sansavoiràprogrammerexplicitementcesrègles;
• Encontrasteaveclessystèmesexperts;
• Troistypesd’apprentissage:
1. Supervisé;
2. Non-supervisé;
3. Semi-supervisé.
DépartementdegénielogicieletdesTI
MTI820Hiver2011– ©S.Chafki,C.Desrosiers
25
Typesd’apprentissages
• Apprentissagesupervisé:
– Onpossèdeunensemble d’exemples d’entraînement,où
chaqueexemple (x1, x2, ..., xn, y) contient:
1.
Unensemble {x1, x2, ..., xn} d’attributs(features)pouvantêtre
numériques oucatégoriques;
2.
Lavaleurd’unevariabledécisionnelle y numérique(problème
derégression)oucatégorique(problèmedeclassification).
– Lesexemples d’entraînement sontsouventétiquetésàlamain
parunexpert(ex:casdefraude,tumeurs,etc.);
DépartementdegénielogicieletdesTI
MTI820Hiver2011– ©S.Chafki,C.Desrosiers
26
Typesd’apprentissages
• Apprentissagesupervisé(suite):
– Comprendnormalement deuxphases:
1. Entraînement:
Unalgorithmeestutilisépourapprendre unmodèlepermettantde
prédirelemieuxpossiblelavariabledécisionnelle desexemples
d’entraînement, enfonctiondeleursattributs;
2. Prédiction:
Unefoisentraîné,lemodèleestemployépourprédirelavariable
décisionnelle d’unnouvelexemple non-étiqueté.
– Lesapprochessedivisentendeuxgroupes:parmodèle etpar
exemples;
DépartementdegénielogicieletdesTI
MTI820Hiver2011– ©S.Chafki,C.Desrosiers
27
Typesd’apprentissages
• Apprentissagesuperviséparmodèle(model-based learning):
– Lemodèleestunefonction(linéaire,non-linéaire,discrète,etc.),
déterminéeparuncertainensembledeparamètres, quimappeles
valeursenentrée(attributs)aveclavaleurensortie(variable
décisionnelle);
– N’utilisepluslesexemplesd’entraînementunefoislemodèle
entraîné;
– Ex:régressionlinéaire,régressionlogistique,arbresdedécision,
réseauxdeneurones,SVM,etc.
Entraînement
x1
x2
...
Modèle:
f(X; θ1, θ2,..., θp)
ypred
+
−y
xn
DépartementdegénielogicieletdesTI
MTI820Hiver2011– ©S.Chafki,C.Desrosiers
28
Typesd’apprentissages
• Apprentissagesuperviséparexemples(instance- based learning):
– Nenécessiteaucunephased’entraînement;
– Lemodèleestplutôtconstituédesexemplesd’entraînementquisont
toujoursconservés;
– Lorsdelaphaseprédictive,ondéterminelavaleurdelavariable
décisionnelleàl’aided’exemplessimilaires;
– Ex:k-plus-proches-voisins(k-NN).
x1
x2
...
xn
Modèle:
• (x11, x12, ..., x1n, y1)
• (x21, x22, ..., x2n, y2)
...
• (xm1, xm2, ..., xmn, ym)
DépartementdegénielogicieletdesTI
ypred
Somme pondérée des
yi des k exemples
d’entraînement les
plus similaires aux
valeurs d’entrée
MTI820Hiver2011– ©S.Chafki,C.Desrosiers
29
Typesd’apprentissages
• Apprentissagenon-supervisé:
– Onnepossèdequelesattributsdesexemples d’entraînement,
paslavaleurdelavariabledécisionnelle;
– Onchercheàidentifier despatronscachésdanslesdonnées(ex:
règlesd’association,corrélations,clusters,etc.);
– Souventdifficiled’évaluerlaqualitédesrésultatsobtenus;
– Ex.d’approches:k-means (clusters),Apiori (règlesd’association),
AnalyseenComposantes Principales– PCA(réduction
dimensionnelle), etc.
DépartementdegénielogicieletdesTI
MTI820Hiver2011– ©S.Chafki,C.Desrosiers
30
Typesd’apprentissages
• Apprentissagesemi-supervisé:
– Seulement unepartiedesexemples d’entraînement estétiquetée
(lavaleurdelavariabledécisionnelle estconnue);
– Lesexemples non-étiquetés fournissentindirectementde
l’informationutileàl’apprentissagedumodèle declassification/
régression;
– Trèsemployé enforagededonnéescaronpossèdesouventpeut
d’exemples étiquetésetl’acquisitiondetelsexemples est
coûteuse;
– Ex.d’approches:variantesdesSVMsupervisés.
DépartementdegénielogicieletdesTI
MTI820Hiver2011– ©S.Chafki,C.Desrosiers
31
Questions
• Àqueltyped’apprentissage(supervisé,semi-supervisé,nonsupervisé)correspondentlesproblèmessuivants:
– Classificationdeclients(intéressés/non-intéressés)
– Segmentationdesclients
– Détectiondefraudes
– Analysedepaniersdemarché
DépartementdegénielogicieletdesTI
MTI820Hiver2011– ©S.Chafki,C.Desrosiers
32
Typesdetâches
Tâche
Types
d’apprentissage
Approches populaires
Classification
(Semi)supervisé
Réseaux deneurones, SVM,arbresde
décision, etc.
Régression
(Semi)supervisé
Régression linéaire/logistique, arbres de
régression, réseaux deneurones, SVM,etc.
Règles d’association
Non-supervisé
Apriori, OneR,ZeroR,Eclat, etc.
Analyse deliens
(link analysis)
Non-supervisé
PageRank,HITS, SimRank,TrustRank,etc.
Identification deséquences
(sequence analysis)
Non-supervisé
Apriori, FP-growth,etc.
Identification degroupes
(clusteranalysis)
Non-supervisé
k-means,mixtures degaussiennes (EM),etc.
Recommandation deproduits
(Semi)supervisé
k-NN,réduction dimensionnelle (SVD),
réseaux deneurones, etc.
Détection dedonnées
aberrantes
(outlier detection)
(Semi)supervisé,
non-supervisé
Approches declustering, approches de
classification.
DépartementdegénielogicieletdesTI
MTI820Hiver2011– ©S.Chafki,C.Desrosiers
33
Laclassificationdedonnées
• Classificationbinaire:
– Seulement deuxclassespossibles(ex:fraudeur/non-fraudeur);
– Onchercheunefonctionf(X; θ) quipartitionnel’espacedes
attributsendeuxrégions(frontièrededécision):
• Si f(X; θ) ≥ 0 ⇒ X appartient à la classe 1;
• Si f(X; θ) < 0 ⇒ X appartient à la classe 2.
• Classificationmulticlasse (plusdedeuxclasses):
– Lafonctionf(X; θ) partitionnel’espacedesattributsenautant
derégionsqueclasses;
– Setraduitenplusieursproblèmes declassificationsbinaires
• Ex.troisclasses:a)classe1vsclasses 2ou3,b)classe2vsclasses
1et3,etc)classe3vsclasses1et2;
• Onchoisitlaclasseayantlemeilleurscoredeconfiance.
DépartementdegénielogicieletdesTI
MTI820Hiver2011– ©S.Chafki,C.Desrosiers
34
Laclassificationdedonnées
• Exemplededeuxfrontièresdedécision:
Exemplesmalclassifiés
DépartementdegénielogicieletdesTI
MTI820Hiver2011– ©S.Chafki,C.Desrosiers
35
Laclassificationdedonnées
• Performanced’unclassificateur:
Qualitédeprédiction:
– Matricedeconfusion(détectiondefraudeurs):
Fraudeurs (réels)
Non-fraudeurs (réels)
Fraudeurs (prédits)
#VraiPositifs
#FauxPositifs
Non-fraudeurs (prédits)
#FauxNégatifs
#VraiNégatifs
– Précision = #VraiPositifs / (#VraiPositifs + #FauxPositifs)
• Ex:pourcentagedespersonnes identifiées commedesfraudeurs
parleclassificateurquilesontréellement.
– Rappel = #VraiPositifs / (#VraiPositifs + #FauxNégatifs)
• Ex:pourcentagedesvraisfraudeursdétectés parleclassificateur.
DépartementdegénielogicieletdesTI
MTI820Hiver2011– ©S.Chafki,C.Desrosiers
36
Question
• Onveutprédirel’intérêtdeclientsenversunnouveau
produit.
• Lorsdelaphased’évaluation, menéesurunensemblede375
exemplesdetest,onobtientlesrésultatssuivants:
Intéressés
(réel)
Non-intéressés
(réel)
Intéressés
(prédit)
150
50
Non-intéressés
(prédit)
100
75
• Quels sont laprécision etlerappeldel’algorithme?
DépartementdegénielogicieletdesTI
MTI820Hiver2011– ©S.Chafki,C.Desrosiers
37
Laclassificationdedonnées
• Autrescritèresdeperformance:
Vitesse:
– Tempsnécessairepourentraînerleclassificateur/pourclassifier
unnouvelexemple.
Robustesse:
– Pouvoirfairedebonnesprédictionsmêmeavecdesdonnées
bruitéesoudifférentesdecellesutiliséespourl’entraînement.
Extensibilité:
– Capacitédefonctionnerdemanièreefficaceavecdegrandes
quantitésdedonnées(ex:plusieursgigaoctets).
Interprétabilité:
– Pouvoircomprendrelemodèledeclassificationetd’entirerdes
informationsutiles;
– Ex:arbresdedécision(facile)versusréseauxdeneurone(difficile).
DépartementdegénielogicieletdesTI
MTI820Hiver2011– ©S.Chafki,C.Desrosiers
38
Larégressiondedonnées
• Régression:
– Onchercheunefonctionparamétréey = f(X; θ) quiapproxime
larelationentrelesattributsX etunesortiey numérique;
– Lavaleurdelafonctionrecherchéeestconnueendespoints
discrets{(Xi, yi)}, i = 1, ..., n;
– Oncherchelesparamètresminimisantl’erreurdeprédiction
pourlesexemples d’entraînement (Xi, yi):
• Ex: Erreur(θ) = ∑i (yi - f(Xi ; θ))2
– Lafonctionpeutêtrelinéaire:
• Ex: f(X; W,b) = <W,X> + b
(<Ÿ,Ÿ> dénote le produit scalaire)
– Ounon-linéaire:
• Ex(logistique):f(X; W,b) = 1 / (1 + exp{<W,X> + b})
DépartementdegénielogicieletdesTI
MTI820Hiver2011– ©S.Chafki,C.Desrosiers
39
Larégressiondedonnées
• ExemplesdecourbesderégressionSVM:
DépartementdegénielogicieletdesTI
MTI820Hiver2011– ©S.Chafki,C.Desrosiers
40
Lesméthodesdeclassification/régression
• Arbresdedécision:
– Classificateursouslaformed’arbresoù:
• Nœudinterne:correspondàuntestfaitsurlavaleurd’attributs;
• Feuille:ensemble d’exemplesappartenant (presque) tousàla
mêmeclasse.
revenu
élev
le
faib
é
âge
ne
u
je
sexe
f
internet=non
sexe
vie
ux
f
internet=non
m
internet=oui ou non
DépartementdegénielogicieletdesTI
m
âge
ne
u
e
j
internet=oui
internet=oui
vie
ux
internet=non
MTI820Hiver2011– ©S.Chafki,C.Desrosiers
41
Lesméthodesdeclassification/régression
• Arbresdedécision(suite):
Phased’entraînement/construction:
– Ondiviserécursivementl’ensembled’entraînementenchoisissant
unnouvelattributàtesterpourchaquenœud;
– Onchoisitletestmenantàlapartitionlapluspuredanslesnœuds
enfants;
– Mesuresdepureté:
• IndexGini:
1 − ∑j p j 2
• Entropie :− ∑j pj log(pj)
pj estleratiod’exemplesdanslenœudappartenantàlaclasse j
– Onarrête lorsquetouslesnœudsrenfermentdessous-ensembles
d’exemplesayant(presque)touslamêmeclasse;
DépartementdegénielogicieletdesTI
MTI820Hiver2011– ©S.Chafki,C.Desrosiers
42
Lesméthodesdeclassification/régression
• Arbresdedécision(suiteetfin):
Phasedeprédiction:
– Pourclassifierunnouvelexemple,unefoisl’arbreconstruit;
– Onparcourtl’arbredepuislaracineenempruntantlesbranches
correspondantauxrésultatsdechaquetest;
– Lorsqu’onatteintunefeuille,onassigneàl’exemplelaclasseayant
leplusdereprésentantsdanslafeuille.
Algorithmes:ID3,C4.5,C5,etc.
DépartementdegénielogicieletdesTI
MTI820Hiver2011– ©S.Chafki,C.Desrosiers
43
Question
• Exprimerenfrançaislarèglepermettantdedécidersiun
clientestsusceptibled’avoirl’internet, àpartirdel’arbre
suivant:
revenu
élev
le
faib
é
âge
ne
u
je
sexe
f
internet=non
sexe
vie
ux
f
internet=non
m
internet=oui ou non
DépartementdegénielogicieletdesTI
âge
ne
u
e
j
internet=oui
m
internet=oui
vie
ux
internet=non
MTI820Hiver2011– ©S.Chafki,C.Desrosiers
44
Lesméthodesdeclassification/régression
• Arbresderégression:
Phased’entraînement/construction:
– Onpartitionnelesexemplesdemanièreàminimiserlavariance
desvaleursy desexemplesdansunmêmenœud;
– Onterminelepartitionnementd’unsous-ensembled’exemplessi
lavarianceestendessousd’uncertainseuil.
Phasedeprédiction:
– Prédictionduy d’unnouvelexemple;
– Onutiliselamoyennedesy pourlesexemplessituésdanslafeuille
atteinteentraversantl’arbre.
– Note:onpeutégalementapprendreunmodèlederégression
linéairedanslesfeuillesaulieudeprendrelamoyenne.
Algorithmes:CART.
DépartementdegénielogicieletdesTI
MTI820Hiver2011– ©S.Chafki,C.Desrosiers
45
Exemple d’unarbre derégression
>0.6
(19) Price = 1.2
Price
−2
Wheelbase
<0.08
3
(21) Price = 0.42
−0.150
1
<0.6
0.8
(14) Price = 0.055
0.420
1.200
0
>0.08
Wheelbase
>−0.2
0.1
2
Horsepower
−0.7
−1
Horsepower
−1.600
−0.890
0.055
(8) Price = −0.15
−2
>−0.07
Wheelbase
<−0.2
>−1.3
−2
−1
0
1
2
(21) Price = −0.89
Horsepower
<−0.07
Horsepower
<−1.3
(9) Price = −1.6
Figure 2: The partition of the data implied by the regression tree from Figure 1.
Notice that all the dividing lines are parallel to the axes, because each internal
node checks whether a single variable is above or below a given value.
Source:LectureonRegressiontrees,36-350:DataMining(CarnegieMellonUniversity),2006
Figure 1: Regression tree for predicting price of 1993-model cars. All features
have been standardized to have zero mean and unit variance. Note that the order
in which variables are examined depends on the answers to previous questions.
The numbers in parentheses
at the leaves indicate how many cases (data points)
DépartementdegénielogicieletdesTI
belong to each leaf.
The tree correctly represents the interaction between Horsepower and Wheelbas
When Horsepower >
0.6, Wheelbase no longer matters. When both
MTI820Hiver2011–
©S.Chafki,C.Desrosiers
46are equally
important, the tree switches between them. (See Figure 2.)
Once we fix the tree, the local models are completely determined, and easy
to find (we just average), so all the e↵ort should go into finding a good tree,
Lesméthodesdeclassification/régression
• Réseauxdeneurones(NN):
– Sebasentsurlemodèle biologique desneurones;
– Définissentfonctionnon-linéaire complexeenreliantlesneurones
entreseuxpourformerunréseauayantplusieurscouches.
couche
d'entrée
1 si sexe=m
0 sinon
sexe=m
couche
cachée
couche
de sortie
wij
sexe=f
âge=jeune
internet=?
0=non
1=oui
âge=vieux
revenu=faible
revenu=élevé
DépartementdegénielogicieletdesTI
MTI820Hiver2011– ©S.Chafki,C.Desrosiers
47
Lesméthodesdeclassification/régression
• Réseauxdeneurones(suite):
– Lesparamètresdumodèle (auxpoidsdessynapses)sontappris
àl’aided’unalgorithmeitératifderétro-propagation;
– Détaild’unseulneurone:
x1
x2
w
1j
w
2j
w
neurone j
nj
xn
DépartementdegénielogicieletdesTI
yj
n
yj = f ( ! xi wij + biais j )
i=1
MTI820Hiver2011– ©S.Chafki,C.Desrosiers
48
Prédictiondesériestemporelles
• Sérietemporelle:
– Séquenced’unevaleurnumériquedansletemps:x1, x2, ..., xt;
– Ex:ventes(dépenses,tauxd’attrition,etc.)àchaquetrimestre
• Transformationdesdonnées:
– Stabilisationdelavariance:x’t = log(xt)
– Suppressiondelatendance:x’’t = x’t – x’t-1
• Entraînement d’unmodèleauto-régressif:
– Onpréditlavaleurautempst aveclesvaleursauxm instants
précédents,oùm estl’ordredumodèle.
xt-m
...
Modèle
auto-régressif
xt-2
xt-1
xt
(ex: SVM, NN, etc.)
DépartementdegénielogicieletdesTI
MTI820Hiver2011– ©S.Chafki,C.Desrosiers
49
Prédictiondesériestemporelles
• Exemple:
– Nombremensueldepassagerinternationauxd’unecompagnie
aérienne(enmillierdepassagers),entre1949et1960
– Tirédulivre:« TimeSeries Analysis:Forecasting andControl»,de
BoxetJenkins(1976)
Sériestemporelles
originales
DépartementdegénielogicieletdesTI
MTI820Hiver2011– ©S.Chafki,C.Desrosiers
50
Prédictiondesériestemporelles
• Exemple(suite):
– Aprèslastabilisationdelavariance:
Sériestemporelles
stabilisées
DépartementdegénielogicieletdesTI
MTI820Hiver2011– ©S.Chafki,C.Desrosiers
51
Prédictiondesériestemporelles
• Exemple(suite2):
– Aprèslasuppressiondelatendance
Sériestemporelles
utilisées pourentraîner
lemodèle
DépartementdegénielogicieletdesTI
MTI820Hiver2011– ©S.Chafki,C.Desrosiers
52
Prédictiondesériestemporelles
• Exemple(suiteetfin):
– Laprédictionàl’aided’unmodèle SVM(lorsdel’entraînement)
Modèle
RMSE
(entraînement)
ARSVM
ARlinéaire
DépartementdegénielogicieletdesTI
MTI820Hiver2011– ©S.Chafki,C.Desrosiers
RMSE
(test)
3.7
18.9
10.1
19.3
53
Identificationdegroupes(clustering)
• Approchespardistanceauxcentroïdes:
– Oncherchek ensembles d’objets(clusters)dontladistance
moyenne desobjetsaucentroïde del’ensemble estminimale;
– Ex:k-means,k-median;
– Nécessited’avoirunnombrefixed’attributsnumériques (ex:
difficiledegrouperdestrajectoiresdelongueurvariable).
• Approchesparmodèle:
– Oncherchelesparamètresd’unmodèlestatistiqueayantlaplus
grandeprobabilitéd’avoirgénérélesobjetsobservés;
– Ex:mixturesdegaussiennes;
– Peutêtredifficiledetrouverunmodèle correspondantauxvraies
données.
DépartementdegénielogicieletdesTI
MTI820Hiver2011– ©S.Chafki,C.Desrosiers
54
Identificationdegroupes(clustering)
• Approcheshiérarchiques:
– Onfusionneitérativementdesgroupesd’objetssimilaires;
– Chaquefusiondonneunnouveauniveaudanslahiérarchie
(dendogramme);
– Ex:clustering agglomératif;
– Méthodegloutonne:uneerreurfaiteàuneétapeimpacteles
étapessubséquentes.
• Difficultéscommunes:
– Choisirlenombredegroupesàtrouver(paramètrek);
– Validerlesgroupesobtenus.
DépartementdegénielogicieletdesTI
MTI820Hiver2011– ©S.Chafki,C.Desrosiers
55
Identificationdegroupes(clustering)
• Algorithmek-means (k=2):
Tiréde:« Programming collectiveintelligence »,Toby Segaran,O‘Reilly©
DépartementdegénielogicieletdesTI
MTI820Hiver2011– ©S.Chafki,C.Desrosiers
56
Identificationdegroupes(clustering)
• Clusteringparmixturedegaussiennes:
Tiréde:« Patternrecognitionandmachinelearning »,C.M.Bishop,Springer©
DépartementdegénielogicieletdesTI
MTI820Hiver2011– ©S.Chafki,C.Desrosiers
57
Identificationdegroupes(clustering)
• Clusteringhiérarchiqueagglomératif:
Tiréde:« PatternDiscoveryinExpressionProfilingData »,F.Katagiriet J.Glazebrook©
DépartementdegénielogicieletdesTI
MTI820Hiver2011– ©S.Chafki,C.Desrosiers
58
Identificationderèglesd’association
• Définitions:
– OnaunelisteT detransactions,chacunecontenantuneliste
d’items(ex:produitsachetés);
– Soitunensemble d’itemsS dansT:
• Support(S)=#detransactionsdeT contenanttouslesitemsdeS;
• Fréquence(S) =Support(S)/(#transactionsdansT)
– Soitunepartitiond’unensemble d’itemsS=X∪Y endeuxsousensembles X etY:
• Règled’association:X ⇒ Y
• Ex:lesclientsquiachètentlesitemsX achètentaussilesitemsY;
– LaconfiancedelarègleX ⇒ Yest:
• Confiance(X ⇒ Y)=Support(X∪Y)/Support(X)
DépartementdegénielogicieletdesTI
MTI820Hiver2011– ©S.Chafki,C.Desrosiers
59
Identificationderèglesd’association
• Objectif:
– IdentifierlesrèglesX ⇒ Ytellesque:
• Support(X∪Y)estsupérieur àunseuilMin_sup (ex:0.5)
• Confiance(X ⇒ Y)estsupérieur àunseuilMin_conf (ex:0.5)
DépartementdegénielogicieletdesTI
MTI820Hiver2011– ©S.Chafki,C.Desrosiers
60
Identificationderèglesd’association
• Exemple:
Transaction*
0"
1"
2"
3"
4"
5"
6"
7"
8"
9"
Itemset*
{Pain,"Pâté}"
{Fromage,"Pain,"Vin}"
{Fromage,"Pain,"Vin}"
{Pain,""Pâté,"Vin}"
{Pain}"
{Bière,"Croustilles,"Salsa}"
{Pain,"Pâté,"Vin}"
{Bière,"Huître}"
{Pâté}"
{AntiGacide,"Bière,"Croustilles,"Huîtres,"Salsa}"
– Support({Pain})=6/10=60%
– Support({Pain,Vin})=4/10=40%
– Confiance(Pain⇒Vin)=Support({Pain,Vin})/Support({Pain})
=0.4/0.6=66%
DépartementdegénielogicieletdesTI
MTI820Hiver2011– ©S.Chafki,C.Desrosiers
61
Identificationderèglesd’association
• AlgorithmeAprioripourlesitemsets fréquents:
– Onprocèdeniveauparniveau,oùchaqueniveaucontient1
itemdeplusqueleprécédent;
– Àchaqueniveau,ongénèredesitemsets candidatsen
combinantdesitemsets duniveauprécédentquinevarientque
d’unseulitem:
• Ex:{1,2,3}estcombiné avec{1,2,4}pourdonner{1,2,3,4}.
– Ensuite,onfiltrelesitemsets candidatsdontlesupportdansT
estinférieurauseuil;
– Onrépètelemême processus,jusqu’àatteindreunniveauoù
aucundescandidatsn’estfréquent.
DépartementdegénielogicieletdesTI
MTI820Hiver2011– ©S.Chafki,C.Desrosiers
62
Identificationderèglesd’association
• AlgorithmeApriori(illustration):
Seuildesupportminimum(Min_sup)=2
DépartementdegénielogicieletdesTI
MTI820Hiver2011– ©S.Chafki,C.Desrosiers
63
Détectiond’anomalies
• Modélisationàdeuxclasses:
– Utiliseunmodèle declassificationbinaire(ex:SVM)pour
classifierunexemple commenormalouanormal;
– Difficileenpratiquecartrèspeud’anomalies comparéaux
exemples normaux(problèmedeclassesnon-equilibrées)
• Modélisationàuneclasse:
– Onsupposequelaplupartdesexemples sontnormaux;
– Onapprendunmodèledeladistributiondesexemples;
– Onconsidèreanormauxlesexemples ayantunefaible
probabilitéselonlemodèle;
DépartementdegénielogicieletdesTI
MTI820Hiver2011– ©S.Chafki,C.Desrosiers
64
Détectiond’anomalies
• Exempledemodélisationàuneclasse:
Source:azure.microsoft.com
DépartementdegénielogicieletdesTI
MTI820Hiver2011– ©S.Chafki,C.Desrosiers
65
Recommandationsdeproduits
• Estimelaprobabilitéqu’unclientsoitintéresséàunnouveau
produitàl’aidedesonhistoriqued’achats;
• Approcheparsimilaritédeclients:
– Unclientestsusceptible d’aimerunproduitsidesclientsaux
habitudesd’achatsimilairesontégalementaiméceproduit:
rui = µu +
–
–
rui
µu
P
sim(u, v)(rvi µv )
P
v2Nu |sim(u, v)|
v2Nu
: cote(i.e., rating)donnéparleclientu auproduiti
:cotemoyennedonnéeparleclientu
sim(u, v) :similaritéentrelesclientsu etv (ex: corrélation)
– Nu
: k-plus-proches voisins de u, basé sur sim(u,v)
–
DépartementdegénielogicieletdesTI
MTI820Hiver2011– ©S.Chafki,C.Desrosiers
66
Recommandationsdeproduits
• Approcheparsimilaritédeproduits:
– Unclientestsusceptible d’aimerunproduits’ilaimedesproduits
similaires,i.e.desproduitssouventachetésparlesmêmesclients
rui = µi +
–
µi
P
j2Ni
P
sim(i, j)(ruj
j2Ni
µj )
|sim(i, j)|
:cotemoyennedonnéeauproduiti
– sim(i, j) :similaritéentrelesproduitsi etj (ex: corrélation)
– Ni
: k-plus-proches voisins de i, basé sur sim(i,j)
DépartementdegénielogicieletdesTI
MTI820Hiver2011– ©S.Chafki,C.Desrosiers
67
Recommandationsdeproduits
• Approcheparrégression:
– Estimel’évaluationd’unclientu pourunproduiti àl’aided’unmodèle
linéaire:
rui ⇠ pTu qi
– pu et qi correspondent à des vecteurs d’attributs caractéristiques (factor
vectors)
– Lesfacteurssontobtenusenminimisantl’erreur quadratique
moyennedeprédictionsurl’ensembleR desexemples:
1
|R|
X
rui
2
T
pu qi
(u,i,rui )2R
DépartementdegénielogicieletdesTI
MTI820Hiver2011– ©S.Chafki,C.Desrosiers
68
Tiréde:kddnuget.com©
DépartementdegénielogicieletdesTI
MTI820Hiver2011– ©S.Chafki,C.Desrosiers
69
Téléchargement