MTI820 −Entrepôts dedonnéesetintelligenced’affaires Leforagededonnées DépartementdegénielogicieletdesTI MTI820Hiver2011– ©S.Chafki,C.Desrosiers 1 Leforagededonnées • « Datamining will become much moreimportantand companies will throw away nothing abouttheir customers because it will be so valuable.Ifyou’re not …doing this,you’re outofbusiness » – Dr.ArnoPenzias,lauréatd’unprixNobelenphysiqueetancien scientifiqueenchefdeBellLabs,enréponse àlaquestion:« What will be thekillerapplicationsinthecorporation? »,ComputerWorld, janvier1999 • 1.2Zettaoctets (1021 octets) – Laquantitéd’informationnumériquecrééeen2010 DépartementdegénielogicieletdesTI MTI820Hiver2011– ©S.Chafki,C.Desrosiers 2 Leforagededonnées • Datamining /knowledge discovery: – Ensembledeprocessusetdeméthodesutilisantdes techniquesdestatistiquesetd’intelligenceartificielle pouridentifieretextrairedel’informationetdes connaissances nouvellesetutiles(patrons)àpartirde grandesquantitésdedonnées. DépartementdegénielogicieletdesTI MTI820Hiver2011– ©S.Chafki,C.Desrosiers 3 Leforagededonnées • Exemplesréels(W.Eckerson,Predictive Analytics,2007): – Unebanquecanadienne utilisel’analyse prédictivepour augmenterde600%letauxderéponseàunecampagne publicitaire,réduiredemoitiélecoûtd’acquisitiondenouveaux clients,etaugmenterde100%leROIdelacampagne; – Unegrandeuniversitéaméricainepréditsiunétudiantvachoisir des’inscrireenappliquantdesmodèles d’analyseprédictivesur lesdonnées descandidatsetl’historiqued’admission; – Unecompagnieaérienne aaugmentésesrevenusetletauxde satisfactiondesesclientsenestimantmieuxlenombrede passagersneseprésentantpasàuncertainvol(gestionde l’overbooking). DépartementdegénielogicieletdesTI MTI820Hiver2011– ©S.Chafki,C.Desrosiers 4 Question • Quelssontlesfacteurspoussantlesentreprisesàsetourner deplusenplusversleforagededonnées? DépartementdegénielogicieletdesTI MTI820Hiver2011– ©S.Chafki,C.Desrosiers 5 Leforagededonnées • Utilisationgrandissanteenentreprise: – Accroissementdelacompétitionàl’échelleglobale,dictéepar l’évolutionconstantedesbesoinsdesutilisateursdansunmarché deplusenplussaturé; – Reconnaissancegénéraledelavaleurinexploitéedesinformations cachéesdansdegrandessourcesdedonnées; – Laconsolidationetl’intégrationdesdonnées,permettantunevue uniquedesclients,vendeurs,transactions,etc. – Lacroissanceexponentielledelacapacitédestechnologies matériellesetlogiciellespourlestockageetletraitementde données,coupléeaveclaréductionimportanteducoûtdeces technologies; – Mouvementdedé-massification(conversiondel’informationen formesnonphysiques)despratiquesd’affaires. DépartementdegénielogicieletdesTI MTI820Hiver2011– ©S.Chafki,C.Desrosiers 6 Exemplesd’applications Domaine Gestion derelation avecles clients (CRM) Bancaire Vente audétail et logistique Exemplesd’applications • Identifier lesrépondants les plusprobables àunnouveau produit/nouvelle campagne (profilage declients); • Comprendre lesprincipales causes dudépart declients afind’améliorer letaux de rétention; • Découvrir desassociations évolutives entre certains produitsetservices, afinde maximiser lesventes etlavaleur desclients; • Identifier lesclients les plusprofitables etleurs besoinsafinderenforcer les relations avecceux-ci etmaximiser lesventes. • Automatiser le processus d’application àunprêten prédisant lesmauvais payeurs; • Détecter destransactions etcartes decrédits frauduleuses; • Optimiser les revenusenprédisant correctement les transactions desdifférentes entités bancaires (ATM,succursales, etc.). • Prédire correctement le volume deventesàdifférentspointsdevente, afinde pouvoirgérer efficacement l’inventaire; • Identifier lesassociations entre lesventes decertains produits(analyse depaniers demarché), afind’optimiser ladisposition desproduits enmagasin etaccroître les ventes; • Découvrir despatronsintéressants dansle déplacement desproduits ayantun tempsdevie limité (ex:aliments), en analysant desdonnées RFID. DépartementdegénielogicieletdesTI MTI820Hiver2011– ©S.Chafki,C.Desrosiers 7 Exemplesd’applications Domaine Manufacturieretde laproduction Bourse Exemplesd’applications • Prédirelesdéfaillancesdesmachinesavantqu’ellesnesurviennent; • Identifierdesanomalies danslessystèmesmanufacturierspourmaximiser laproduction. • Prédirelemomentetlaquantitéduchangement d’unactif; • Identifieretprévenirlesactivitésfrauduleuses. • Prédirelesmontantsdesréclamationsafindedévelopperdesplans avantageuxquiminimisentlesrisquesetmaximisentlesprofits. • Identifieretprévenirlesréclamationsfrauduleuses. • Identifierdesrelationsentredessymptômesetdesmaladiesafind’assister lesmédecins àdiagnostiquerlespatients; • Identifiercertainspatronsmoléculairesayantuneinfluencesurcertaines maladies(ex:cancer),afindefaciliterledéveloppementdenouveaux médicamentsettraitements. • Identifierdespatronsdansles comportementsdeterroristes(ex:transfert d’argent,communication,etc.); • Prédireletauxetl’endroitd’occurrencededifférentscrimes,afin d’optimiserladispersiondesforcespolicières. Assurances Santé Sécurité DépartementdegénielogicieletdesTI MTI820Hiver2011– ©S.Chafki,C.Desrosiers 8 Leforagededonnées Other Supply chain Surveys Quality improvement Customer service 12% 17% 18% 25% 26% Demand planning 30% Pricing 30% Promotions Fraud detection 31% 32% 40% Attrition/churn/retention Budgeting and forecasting 41% Customer acquisition 41% 46% Campaign management Cross-sell/upsell 47% W.Eckerson,PredictiveAnalytics– ExtendingtheValueofyourDataWarehousingInvestment,2007 DépartementdegénielogicieletdesTI MTI820Hiver2011– ©S.Chafki,C.Desrosiers 9 Questions • Quelssontlestypededonnéesutiliséesenforagede données? • Quelstypesdepatronsveut-ontrouver? DépartementdegénielogicieletdesTI MTI820Hiver2011– ©S.Chafki,C.Desrosiers 10 Lestypesdedonnées • Donnéescatégoriques: – Variablesdiscrètespouvantprendreunnombrelimitédevaleurs; – Serventàdiviserlesdonnéesendifférentsgroupes; – Ex:sexe,grouped’âge,niveaud’éducation; – Proviennentsouventdelaconversiond’unevariablenumérique (ex:conversiondeâge engrouped’âge); – Peuventêtrenominales: • Servent uniquementàidentifier lacatégorie(aucunenotionde mesure); • Ex:étatcivil(marié,célibataire,divorcé). – Ouordinales: • Ajoutentlanotiond’ordreentrelesvaleurspossibles; • Ex:indicedesolvabilité(bas,moyen,élevé). DépartementdegénielogicieletdesTI MTI820Hiver2011– ©S.Chafki,C.Desrosiers 11 Lestypesdedonnées • Donnéesnumériques: – Variablesdiscrètesoucontinuesservantàmesurerunecertaine quantité; – Ex:âge,nombred’enfants,revenufamilial,etc.; – Peuventavoiruneprécisionvariable • Ex:longueur(1m,1.4m,1.45m,1.456m,etc.). • Sériestemporelles: – Valeursnumériques mesurantuncertainphénomène à intervallesdetempsréguliers; – Ex:revenusàchaquetrimestre,nombredeventesàchaque semaine, etc. • Autresdonnées: – Ex:images,audio,texte,etc. DépartementdegénielogicieletdesTI MTI820Hiver2011– ©S.Chafki,C.Desrosiers 12 Question • Lesdonnées suivantessont-ellesnominales,ordinalesou numériques? 1. L’évaluationd’unproduitparunclient(i.e.,user-item rating) 2. Lacatégoried’unproduit 3. Lequantitécommandée 4. Legroupesalariald’unclient DépartementdegénielogicieletdesTI MTI820Hiver2011– ©S.Chafki,C.Desrosiers 13 Typesdepatrons • Règlesdedécision: – Règleslogiquesoualgébriquespermettantdeséparerles exemples enplusieursclassesconnues; – Ex:transactionsnormales/frauduleuses, clientsintéressés/nonintéressés; • Règlesd’association: – Ensembles d’itemsquisurviennent fréquemment enmême temps; – Ex:analysedespaniersdemarché. DépartementdegénielogicieletdesTI MTI820Hiver2011– ©S.Chafki,C.Desrosiers 14 Typesdepatrons • Récurrencestemporelles: – Patronsrécurrentsdansletempspermettantdeprédiredes valeursfutures; – Sebasesurdesdonnées historiques; – Ex:prédirelesventesd’uncertainproduitàlamême datel’an prochain,ensebasantsurlesventespasséesdeceproduit. • Relationsséquentielles: – Séried’événements ordonnésdansletemps; – Ex:prédirequelesclientsd’unebanqueayantdéjàuncompte chèquesouvrirontuncompteépargnesuivid’uncompte investissement àl’intérieurd’uneannée. DépartementdegénielogicieletdesTI MTI820Hiver2011– ©S.Chafki,C.Desrosiers 15 Typesdepatrons • Groupeshomogènes(clusters): – Groupesnaturelsd’objetsayantdescaractéristiquescommunes; – Ex:groupesdeclientsayantdescomportements d’achat similaires. DépartementdegénielogicieletdesTI MTI820Hiver2011– ©S.Chafki,C.Desrosiers 16 Question • Àqueltypedepatroncorrespondlesproblèmessuivants? 1. Identifierlesrépondantslesplusprobablesàunnouveau produit/nouvelle campagne; 2. Détecterdestransactionsetcartesdecréditfrauduleuses; 3. Identifierlesassociationsentrelesventesdecertainsproduits afind’optimiserladispositiondesproduitsenmagasinet accroîtrelesventes; 4. Découvrirdespatronsintéressantsdansledéplacement des produitsayantuntempsdevielimité(ex:aliments),en analysantdesdonnées RFID; 5. Identifierlesdifférentssegmentd’unmarché. DépartementdegénielogicieletdesTI MTI820Hiver2011– ©S.Chafki,C.Desrosiers 17 Questions • Quellessontlesprincipalesétapesduprocessusdeforagede données? DépartementdegénielogicieletdesTI MTI820Hiver2011– ©S.Chafki,C.Desrosiers 18 Processusdeforagededonnées • ProcessusCross-Industry StandardProcess forDataMining (CRISP)*: 1.Compréhension dudomaine d’affaires 2.Compréhension desdonnées 6.Déploiement Données 5.Testset évaluation 3.Préparationdes données 4.Conceptiondu modèle *consortiumdecompagnieseuropéennes DépartementdegénielogicieletdesTI MTI820Hiver2011– ©S.Chafki,C.Desrosiers 19 Processusdeforagededonnées 1. Compréhension dudomained’affaires: – Comprendrelesbesoinsdesutilisateursd’affairesetlesobjectifs d’affairesdel’entreprise; – Faitàl’étapedespécificationdesbesoins. 2. Compréhension desdonnées: – Identifierlesdonnéespertinentesdansl’entrepôtetlessources; – Identifierlesvariableslespluspertinentesetcomprendrela significationdecesvariables; – Analyserlesvariablesetleursinterdépendances: • Ex:min/max,moyenne,variances, corrélations,etc. – Caractériserlesvariables: • Quantitatives(ex:numériques, catégoriques) ou • Qualitatives(ex:distributiondeprobabilité). DépartementdegénielogicieletdesTI MTI820Hiver2011– ©S.Chafki,C.Desrosiers 20 Processusdeforagededonnées 3. Préparationdesdonnées: Donnéesbrutes Consolidation • • • Recueillir lesdonnées; Sélectionner lesdonnées; Intégrer les données. Nettoyage • • • Assigner les valeursmanquantes; Réduire lebruit danslesdonnées; Éliminer lesincohérences. • • • Normaliser les données; Discrétiser /agréger les données; Construire denouveaux attributs. • • Réduire lenombre devariables (ex:PCA); Réduire lenombre d’exemples (ex: échantillonage). Transformation Réduction Donnéesbien formées DépartementdegénielogicieletdesTI MTI820Hiver2011– ©S.Chafki,C.Desrosiers 21 Processusdeforagededonnées 4. Développement dumodèle: – Sélectiondequelquesapprochespertinentes,tenantcomptedela tâche,dutypededonnées,etdesperformancessouhaitées; – Entraînementdesmodèles aveclesdonnéespréparées. 5. Testsetévaluation: – Sélectiondumeilleur modèle etdesesparamètresoptimauxen fonctiondemétriquesdeperformance • Ex:RMSE(régression),précision/rappel (classification),etc. – Évaluationparunexpertdespatronsidentifiésenapprentissage non-supervisé (ex:clusters,règlesd’association,etc.) 6. Déploiement, suivietmaintenancedel’application DépartementdegénielogicieletdesTI MTI820Hiver2011– ©S.Chafki,C.Desrosiers 22 Techniquesdepréparationdesdonnées Tâche Techniquespopulaires Remplirlesdonnées manquantes Assignerauxvaleursmanquantes unevaleurdéfaut(ex:min/max, moyenne,médiane,etc.). Réduirelebruitet éliminer lesdonnées erronées Identifier lesdonnéesaberrantes(ex:clustering +déviation)etéliminerou modifiercesdonnées; Normaliser les données Modifierles valeurspourannulerl’effetdelamoyenneetpourquelles tombentdansunintervallefixe(ex:z-score) Discrétiser /agréger lesdonnées Convertirlesvaleursnumériqueenunereprésentationdiscrète(ex: partitionnementparintervallesfixesouparfréquence). Construirede nouveaux attributs Dériverdenouveauxattributsàpartirdesattributsexistantsàl’aide d’opérationsmathématiques(ex:Term Frequency - InverseDocument Frequency ou TF-IDF) Réduire lesnombre d’attributs Choisirlesattributsayantleplusd’influencesurlavariabledécisionnelle ou éliminerlesattributscorrélés(ex:analyseen composantes principales/indépendantes, test Chi-square,inductionpararbrede décision,etc.) Réduirelenombre d’exemples Ex:échantillonnage aléatoire,stratifié,etc. DépartementdegénielogicieletdesTI MTI820Hiver2011– ©S.Chafki,C.Desrosiers 23 Questions • Quellessontlesprincipalestâchesdeforagededonnées? • Àqueltyped’apprentissageautomatiquecestâches correspondent-elles? • Quelssontlesprincipauxalgorithmespourrésoudreces tâches? DépartementdegénielogicieletdesTI MTI820Hiver2011– ©S.Chafki,C.Desrosiers 24 Apprentissageautomatique • Basésurlesstatistiquesetl’intelligenceartificielle; • Permetauxordinateursd’apprendre certainesrèglesàpartir d’exemples, sansavoiràprogrammerexplicitementcesrègles; • Encontrasteaveclessystèmesexperts; • Troistypesd’apprentissage: 1. Supervisé; 2. Non-supervisé; 3. Semi-supervisé. DépartementdegénielogicieletdesTI MTI820Hiver2011– ©S.Chafki,C.Desrosiers 25 Typesd’apprentissages • Apprentissagesupervisé: – Onpossèdeunensemble d’exemples d’entraînement,où chaqueexemple (x1, x2, ..., xn, y) contient: 1. Unensemble {x1, x2, ..., xn} d’attributs(features)pouvantêtre numériques oucatégoriques; 2. Lavaleurd’unevariabledécisionnelle y numérique(problème derégression)oucatégorique(problèmedeclassification). – Lesexemples d’entraînement sontsouventétiquetésàlamain parunexpert(ex:casdefraude,tumeurs,etc.); DépartementdegénielogicieletdesTI MTI820Hiver2011– ©S.Chafki,C.Desrosiers 26 Typesd’apprentissages • Apprentissagesupervisé(suite): – Comprendnormalement deuxphases: 1. Entraînement: Unalgorithmeestutilisépourapprendre unmodèlepermettantde prédirelemieuxpossiblelavariabledécisionnelle desexemples d’entraînement, enfonctiondeleursattributs; 2. Prédiction: Unefoisentraîné,lemodèleestemployépourprédirelavariable décisionnelle d’unnouvelexemple non-étiqueté. – Lesapprochessedivisentendeuxgroupes:parmodèle etpar exemples; DépartementdegénielogicieletdesTI MTI820Hiver2011– ©S.Chafki,C.Desrosiers 27 Typesd’apprentissages • Apprentissagesuperviséparmodèle(model-based learning): – Lemodèleestunefonction(linéaire,non-linéaire,discrète,etc.), déterminéeparuncertainensembledeparamètres, quimappeles valeursenentrée(attributs)aveclavaleurensortie(variable décisionnelle); – N’utilisepluslesexemplesd’entraînementunefoislemodèle entraîné; – Ex:régressionlinéaire,régressionlogistique,arbresdedécision, réseauxdeneurones,SVM,etc. Entraînement x1 x2 ... Modèle: f(X; θ1, θ2,..., θp) ypred + −y xn DépartementdegénielogicieletdesTI MTI820Hiver2011– ©S.Chafki,C.Desrosiers 28 Typesd’apprentissages • Apprentissagesuperviséparexemples(instance- based learning): – Nenécessiteaucunephased’entraînement; – Lemodèleestplutôtconstituédesexemplesd’entraînementquisont toujoursconservés; – Lorsdelaphaseprédictive,ondéterminelavaleurdelavariable décisionnelleàl’aided’exemplessimilaires; – Ex:k-plus-proches-voisins(k-NN). x1 x2 ... xn Modèle: • (x11, x12, ..., x1n, y1) • (x21, x22, ..., x2n, y2) ... • (xm1, xm2, ..., xmn, ym) DépartementdegénielogicieletdesTI ypred Somme pondérée des yi des k exemples d’entraînement les plus similaires aux valeurs d’entrée MTI820Hiver2011– ©S.Chafki,C.Desrosiers 29 Typesd’apprentissages • Apprentissagenon-supervisé: – Onnepossèdequelesattributsdesexemples d’entraînement, paslavaleurdelavariabledécisionnelle; – Onchercheàidentifier despatronscachésdanslesdonnées(ex: règlesd’association,corrélations,clusters,etc.); – Souventdifficiled’évaluerlaqualitédesrésultatsobtenus; – Ex.d’approches:k-means (clusters),Apiori (règlesd’association), AnalyseenComposantes Principales– PCA(réduction dimensionnelle), etc. DépartementdegénielogicieletdesTI MTI820Hiver2011– ©S.Chafki,C.Desrosiers 30 Typesd’apprentissages • Apprentissagesemi-supervisé: – Seulement unepartiedesexemples d’entraînement estétiquetée (lavaleurdelavariabledécisionnelle estconnue); – Lesexemples non-étiquetés fournissentindirectementde l’informationutileàl’apprentissagedumodèle declassification/ régression; – Trèsemployé enforagededonnéescaronpossèdesouventpeut d’exemples étiquetésetl’acquisitiondetelsexemples est coûteuse; – Ex.d’approches:variantesdesSVMsupervisés. DépartementdegénielogicieletdesTI MTI820Hiver2011– ©S.Chafki,C.Desrosiers 31 Questions • Àqueltyped’apprentissage(supervisé,semi-supervisé,nonsupervisé)correspondentlesproblèmessuivants: – Classificationdeclients(intéressés/non-intéressés) – Segmentationdesclients – Détectiondefraudes – Analysedepaniersdemarché DépartementdegénielogicieletdesTI MTI820Hiver2011– ©S.Chafki,C.Desrosiers 32 Typesdetâches Tâche Types d’apprentissage Approches populaires Classification (Semi)supervisé Réseaux deneurones, SVM,arbresde décision, etc. Régression (Semi)supervisé Régression linéaire/logistique, arbres de régression, réseaux deneurones, SVM,etc. Règles d’association Non-supervisé Apriori, OneR,ZeroR,Eclat, etc. Analyse deliens (link analysis) Non-supervisé PageRank,HITS, SimRank,TrustRank,etc. Identification deséquences (sequence analysis) Non-supervisé Apriori, FP-growth,etc. Identification degroupes (clusteranalysis) Non-supervisé k-means,mixtures degaussiennes (EM),etc. Recommandation deproduits (Semi)supervisé k-NN,réduction dimensionnelle (SVD), réseaux deneurones, etc. Détection dedonnées aberrantes (outlier detection) (Semi)supervisé, non-supervisé Approches declustering, approches de classification. DépartementdegénielogicieletdesTI MTI820Hiver2011– ©S.Chafki,C.Desrosiers 33 Laclassificationdedonnées • Classificationbinaire: – Seulement deuxclassespossibles(ex:fraudeur/non-fraudeur); – Onchercheunefonctionf(X; θ) quipartitionnel’espacedes attributsendeuxrégions(frontièrededécision): • Si f(X; θ) ≥ 0 ⇒ X appartient à la classe 1; • Si f(X; θ) < 0 ⇒ X appartient à la classe 2. • Classificationmulticlasse (plusdedeuxclasses): – Lafonctionf(X; θ) partitionnel’espacedesattributsenautant derégionsqueclasses; – Setraduitenplusieursproblèmes declassificationsbinaires • Ex.troisclasses:a)classe1vsclasses 2ou3,b)classe2vsclasses 1et3,etc)classe3vsclasses1et2; • Onchoisitlaclasseayantlemeilleurscoredeconfiance. DépartementdegénielogicieletdesTI MTI820Hiver2011– ©S.Chafki,C.Desrosiers 34 Laclassificationdedonnées • Exemplededeuxfrontièresdedécision: Exemplesmalclassifiés DépartementdegénielogicieletdesTI MTI820Hiver2011– ©S.Chafki,C.Desrosiers 35 Laclassificationdedonnées • Performanced’unclassificateur: Qualitédeprédiction: – Matricedeconfusion(détectiondefraudeurs): Fraudeurs (réels) Non-fraudeurs (réels) Fraudeurs (prédits) #VraiPositifs #FauxPositifs Non-fraudeurs (prédits) #FauxNégatifs #VraiNégatifs – Précision = #VraiPositifs / (#VraiPositifs + #FauxPositifs) • Ex:pourcentagedespersonnes identifiées commedesfraudeurs parleclassificateurquilesontréellement. – Rappel = #VraiPositifs / (#VraiPositifs + #FauxNégatifs) • Ex:pourcentagedesvraisfraudeursdétectés parleclassificateur. DépartementdegénielogicieletdesTI MTI820Hiver2011– ©S.Chafki,C.Desrosiers 36 Question • Onveutprédirel’intérêtdeclientsenversunnouveau produit. • Lorsdelaphased’évaluation, menéesurunensemblede375 exemplesdetest,onobtientlesrésultatssuivants: Intéressés (réel) Non-intéressés (réel) Intéressés (prédit) 150 50 Non-intéressés (prédit) 100 75 • Quels sont laprécision etlerappeldel’algorithme? DépartementdegénielogicieletdesTI MTI820Hiver2011– ©S.Chafki,C.Desrosiers 37 Laclassificationdedonnées • Autrescritèresdeperformance: Vitesse: – Tempsnécessairepourentraînerleclassificateur/pourclassifier unnouvelexemple. Robustesse: – Pouvoirfairedebonnesprédictionsmêmeavecdesdonnées bruitéesoudifférentesdecellesutiliséespourl’entraînement. Extensibilité: – Capacitédefonctionnerdemanièreefficaceavecdegrandes quantitésdedonnées(ex:plusieursgigaoctets). Interprétabilité: – Pouvoircomprendrelemodèledeclassificationetd’entirerdes informationsutiles; – Ex:arbresdedécision(facile)versusréseauxdeneurone(difficile). DépartementdegénielogicieletdesTI MTI820Hiver2011– ©S.Chafki,C.Desrosiers 38 Larégressiondedonnées • Régression: – Onchercheunefonctionparamétréey = f(X; θ) quiapproxime larelationentrelesattributsX etunesortiey numérique; – Lavaleurdelafonctionrecherchéeestconnueendespoints discrets{(Xi, yi)}, i = 1, ..., n; – Oncherchelesparamètresminimisantl’erreurdeprédiction pourlesexemples d’entraînement (Xi, yi): • Ex: Erreur(θ) = ∑i (yi - f(Xi ; θ))2 – Lafonctionpeutêtrelinéaire: • Ex: f(X; W,b) = <W,X> + b (<,> dénote le produit scalaire) – Ounon-linéaire: • Ex(logistique):f(X; W,b) = 1 / (1 + exp{<W,X> + b}) DépartementdegénielogicieletdesTI MTI820Hiver2011– ©S.Chafki,C.Desrosiers 39 Larégressiondedonnées • ExemplesdecourbesderégressionSVM: DépartementdegénielogicieletdesTI MTI820Hiver2011– ©S.Chafki,C.Desrosiers 40 Lesméthodesdeclassification/régression • Arbresdedécision: – Classificateursouslaformed’arbresoù: • Nœudinterne:correspondàuntestfaitsurlavaleurd’attributs; • Feuille:ensemble d’exemplesappartenant (presque) tousàla mêmeclasse. revenu élev le faib é âge ne u je sexe f internet=non sexe vie ux f internet=non m internet=oui ou non DépartementdegénielogicieletdesTI m âge ne u e j internet=oui internet=oui vie ux internet=non MTI820Hiver2011– ©S.Chafki,C.Desrosiers 41 Lesméthodesdeclassification/régression • Arbresdedécision(suite): Phased’entraînement/construction: – Ondiviserécursivementl’ensembled’entraînementenchoisissant unnouvelattributàtesterpourchaquenœud; – Onchoisitletestmenantàlapartitionlapluspuredanslesnœuds enfants; – Mesuresdepureté: • IndexGini: 1 − ∑j p j 2 • Entropie :− ∑j pj log(pj) pj estleratiod’exemplesdanslenœudappartenantàlaclasse j – Onarrête lorsquetouslesnœudsrenfermentdessous-ensembles d’exemplesayant(presque)touslamêmeclasse; DépartementdegénielogicieletdesTI MTI820Hiver2011– ©S.Chafki,C.Desrosiers 42 Lesméthodesdeclassification/régression • Arbresdedécision(suiteetfin): Phasedeprédiction: – Pourclassifierunnouvelexemple,unefoisl’arbreconstruit; – Onparcourtl’arbredepuislaracineenempruntantlesbranches correspondantauxrésultatsdechaquetest; – Lorsqu’onatteintunefeuille,onassigneàl’exemplelaclasseayant leplusdereprésentantsdanslafeuille. Algorithmes:ID3,C4.5,C5,etc. DépartementdegénielogicieletdesTI MTI820Hiver2011– ©S.Chafki,C.Desrosiers 43 Question • Exprimerenfrançaislarèglepermettantdedécidersiun clientestsusceptibled’avoirl’internet, àpartirdel’arbre suivant: revenu élev le faib é âge ne u je sexe f internet=non sexe vie ux f internet=non m internet=oui ou non DépartementdegénielogicieletdesTI âge ne u e j internet=oui m internet=oui vie ux internet=non MTI820Hiver2011– ©S.Chafki,C.Desrosiers 44 Lesméthodesdeclassification/régression • Arbresderégression: Phased’entraînement/construction: – Onpartitionnelesexemplesdemanièreàminimiserlavariance desvaleursy desexemplesdansunmêmenœud; – Onterminelepartitionnementd’unsous-ensembled’exemplessi lavarianceestendessousd’uncertainseuil. Phasedeprédiction: – Prédictionduy d’unnouvelexemple; – Onutiliselamoyennedesy pourlesexemplessituésdanslafeuille atteinteentraversantl’arbre. – Note:onpeutégalementapprendreunmodèlederégression linéairedanslesfeuillesaulieudeprendrelamoyenne. Algorithmes:CART. DépartementdegénielogicieletdesTI MTI820Hiver2011– ©S.Chafki,C.Desrosiers 45 Exemple d’unarbre derégression >0.6 (19) Price = 1.2 Price −2 Wheelbase <0.08 3 (21) Price = 0.42 −0.150 1 <0.6 0.8 (14) Price = 0.055 0.420 1.200 0 >0.08 Wheelbase >−0.2 0.1 2 Horsepower −0.7 −1 Horsepower −1.600 −0.890 0.055 (8) Price = −0.15 −2 >−0.07 Wheelbase <−0.2 >−1.3 −2 −1 0 1 2 (21) Price = −0.89 Horsepower <−0.07 Horsepower <−1.3 (9) Price = −1.6 Figure 2: The partition of the data implied by the regression tree from Figure 1. Notice that all the dividing lines are parallel to the axes, because each internal node checks whether a single variable is above or below a given value. Source:LectureonRegressiontrees,36-350:DataMining(CarnegieMellonUniversity),2006 Figure 1: Regression tree for predicting price of 1993-model cars. All features have been standardized to have zero mean and unit variance. Note that the order in which variables are examined depends on the answers to previous questions. The numbers in parentheses at the leaves indicate how many cases (data points) DépartementdegénielogicieletdesTI belong to each leaf. The tree correctly represents the interaction between Horsepower and Wheelbas When Horsepower > 0.6, Wheelbase no longer matters. When both MTI820Hiver2011– ©S.Chafki,C.Desrosiers 46are equally important, the tree switches between them. (See Figure 2.) Once we fix the tree, the local models are completely determined, and easy to find (we just average), so all the e↵ort should go into finding a good tree, Lesméthodesdeclassification/régression • Réseauxdeneurones(NN): – Sebasentsurlemodèle biologique desneurones; – Définissentfonctionnon-linéaire complexeenreliantlesneurones entreseuxpourformerunréseauayantplusieurscouches. couche d'entrée 1 si sexe=m 0 sinon sexe=m couche cachée couche de sortie wij sexe=f âge=jeune internet=? 0=non 1=oui âge=vieux revenu=faible revenu=élevé DépartementdegénielogicieletdesTI MTI820Hiver2011– ©S.Chafki,C.Desrosiers 47 Lesméthodesdeclassification/régression • Réseauxdeneurones(suite): – Lesparamètresdumodèle (auxpoidsdessynapses)sontappris àl’aided’unalgorithmeitératifderétro-propagation; – Détaild’unseulneurone: x1 x2 w 1j w 2j w neurone j nj xn DépartementdegénielogicieletdesTI yj n yj = f ( ! xi wij + biais j ) i=1 MTI820Hiver2011– ©S.Chafki,C.Desrosiers 48 Prédictiondesériestemporelles • Sérietemporelle: – Séquenced’unevaleurnumériquedansletemps:x1, x2, ..., xt; – Ex:ventes(dépenses,tauxd’attrition,etc.)àchaquetrimestre • Transformationdesdonnées: – Stabilisationdelavariance:x’t = log(xt) – Suppressiondelatendance:x’’t = x’t – x’t-1 • Entraînement d’unmodèleauto-régressif: – Onpréditlavaleurautempst aveclesvaleursauxm instants précédents,oùm estl’ordredumodèle. xt-m ... Modèle auto-régressif xt-2 xt-1 xt (ex: SVM, NN, etc.) DépartementdegénielogicieletdesTI MTI820Hiver2011– ©S.Chafki,C.Desrosiers 49 Prédictiondesériestemporelles • Exemple: – Nombremensueldepassagerinternationauxd’unecompagnie aérienne(enmillierdepassagers),entre1949et1960 – Tirédulivre:« TimeSeries Analysis:Forecasting andControl»,de BoxetJenkins(1976) Sériestemporelles originales DépartementdegénielogicieletdesTI MTI820Hiver2011– ©S.Chafki,C.Desrosiers 50 Prédictiondesériestemporelles • Exemple(suite): – Aprèslastabilisationdelavariance: Sériestemporelles stabilisées DépartementdegénielogicieletdesTI MTI820Hiver2011– ©S.Chafki,C.Desrosiers 51 Prédictiondesériestemporelles • Exemple(suite2): – Aprèslasuppressiondelatendance Sériestemporelles utilisées pourentraîner lemodèle DépartementdegénielogicieletdesTI MTI820Hiver2011– ©S.Chafki,C.Desrosiers 52 Prédictiondesériestemporelles • Exemple(suiteetfin): – Laprédictionàl’aided’unmodèle SVM(lorsdel’entraînement) Modèle RMSE (entraînement) ARSVM ARlinéaire DépartementdegénielogicieletdesTI MTI820Hiver2011– ©S.Chafki,C.Desrosiers RMSE (test) 3.7 18.9 10.1 19.3 53 Identificationdegroupes(clustering) • Approchespardistanceauxcentroïdes: – Oncherchek ensembles d’objets(clusters)dontladistance moyenne desobjetsaucentroïde del’ensemble estminimale; – Ex:k-means,k-median; – Nécessited’avoirunnombrefixed’attributsnumériques (ex: difficiledegrouperdestrajectoiresdelongueurvariable). • Approchesparmodèle: – Oncherchelesparamètresd’unmodèlestatistiqueayantlaplus grandeprobabilitéd’avoirgénérélesobjetsobservés; – Ex:mixturesdegaussiennes; – Peutêtredifficiledetrouverunmodèle correspondantauxvraies données. DépartementdegénielogicieletdesTI MTI820Hiver2011– ©S.Chafki,C.Desrosiers 54 Identificationdegroupes(clustering) • Approcheshiérarchiques: – Onfusionneitérativementdesgroupesd’objetssimilaires; – Chaquefusiondonneunnouveauniveaudanslahiérarchie (dendogramme); – Ex:clustering agglomératif; – Méthodegloutonne:uneerreurfaiteàuneétapeimpacteles étapessubséquentes. • Difficultéscommunes: – Choisirlenombredegroupesàtrouver(paramètrek); – Validerlesgroupesobtenus. DépartementdegénielogicieletdesTI MTI820Hiver2011– ©S.Chafki,C.Desrosiers 55 Identificationdegroupes(clustering) • Algorithmek-means (k=2): Tiréde:« Programming collectiveintelligence »,Toby Segaran,O‘Reilly© DépartementdegénielogicieletdesTI MTI820Hiver2011– ©S.Chafki,C.Desrosiers 56 Identificationdegroupes(clustering) • Clusteringparmixturedegaussiennes: Tiréde:« Patternrecognitionandmachinelearning »,C.M.Bishop,Springer© DépartementdegénielogicieletdesTI MTI820Hiver2011– ©S.Chafki,C.Desrosiers 57 Identificationdegroupes(clustering) • Clusteringhiérarchiqueagglomératif: Tiréde:« PatternDiscoveryinExpressionProfilingData »,F.Katagiriet J.Glazebrook© DépartementdegénielogicieletdesTI MTI820Hiver2011– ©S.Chafki,C.Desrosiers 58 Identificationderèglesd’association • Définitions: – OnaunelisteT detransactions,chacunecontenantuneliste d’items(ex:produitsachetés); – Soitunensemble d’itemsS dansT: • Support(S)=#detransactionsdeT contenanttouslesitemsdeS; • Fréquence(S) =Support(S)/(#transactionsdansT) – Soitunepartitiond’unensemble d’itemsS=X∪Y endeuxsousensembles X etY: • Règled’association:X ⇒ Y • Ex:lesclientsquiachètentlesitemsX achètentaussilesitemsY; – LaconfiancedelarègleX ⇒ Yest: • Confiance(X ⇒ Y)=Support(X∪Y)/Support(X) DépartementdegénielogicieletdesTI MTI820Hiver2011– ©S.Chafki,C.Desrosiers 59 Identificationderèglesd’association • Objectif: – IdentifierlesrèglesX ⇒ Ytellesque: • Support(X∪Y)estsupérieur àunseuilMin_sup (ex:0.5) • Confiance(X ⇒ Y)estsupérieur àunseuilMin_conf (ex:0.5) DépartementdegénielogicieletdesTI MTI820Hiver2011– ©S.Chafki,C.Desrosiers 60 Identificationderèglesd’association • Exemple: Transaction* 0" 1" 2" 3" 4" 5" 6" 7" 8" 9" Itemset* {Pain,"Pâté}" {Fromage,"Pain,"Vin}" {Fromage,"Pain,"Vin}" {Pain,""Pâté,"Vin}" {Pain}" {Bière,"Croustilles,"Salsa}" {Pain,"Pâté,"Vin}" {Bière,"Huître}" {Pâté}" {AntiGacide,"Bière,"Croustilles,"Huîtres,"Salsa}" – Support({Pain})=6/10=60% – Support({Pain,Vin})=4/10=40% – Confiance(Pain⇒Vin)=Support({Pain,Vin})/Support({Pain}) =0.4/0.6=66% DépartementdegénielogicieletdesTI MTI820Hiver2011– ©S.Chafki,C.Desrosiers 61 Identificationderèglesd’association • AlgorithmeAprioripourlesitemsets fréquents: – Onprocèdeniveauparniveau,oùchaqueniveaucontient1 itemdeplusqueleprécédent; – Àchaqueniveau,ongénèredesitemsets candidatsen combinantdesitemsets duniveauprécédentquinevarientque d’unseulitem: • Ex:{1,2,3}estcombiné avec{1,2,4}pourdonner{1,2,3,4}. – Ensuite,onfiltrelesitemsets candidatsdontlesupportdansT estinférieurauseuil; – Onrépètelemême processus,jusqu’àatteindreunniveauoù aucundescandidatsn’estfréquent. DépartementdegénielogicieletdesTI MTI820Hiver2011– ©S.Chafki,C.Desrosiers 62 Identificationderèglesd’association • AlgorithmeApriori(illustration): Seuildesupportminimum(Min_sup)=2 DépartementdegénielogicieletdesTI MTI820Hiver2011– ©S.Chafki,C.Desrosiers 63 Détectiond’anomalies • Modélisationàdeuxclasses: – Utiliseunmodèle declassificationbinaire(ex:SVM)pour classifierunexemple commenormalouanormal; – Difficileenpratiquecartrèspeud’anomalies comparéaux exemples normaux(problèmedeclassesnon-equilibrées) • Modélisationàuneclasse: – Onsupposequelaplupartdesexemples sontnormaux; – Onapprendunmodèledeladistributiondesexemples; – Onconsidèreanormauxlesexemples ayantunefaible probabilitéselonlemodèle; DépartementdegénielogicieletdesTI MTI820Hiver2011– ©S.Chafki,C.Desrosiers 64 Détectiond’anomalies • Exempledemodélisationàuneclasse: Source:azure.microsoft.com DépartementdegénielogicieletdesTI MTI820Hiver2011– ©S.Chafki,C.Desrosiers 65 Recommandationsdeproduits • Estimelaprobabilitéqu’unclientsoitintéresséàunnouveau produitàl’aidedesonhistoriqued’achats; • Approcheparsimilaritédeclients: – Unclientestsusceptible d’aimerunproduitsidesclientsaux habitudesd’achatsimilairesontégalementaiméceproduit: rui = µu + – – rui µu P sim(u, v)(rvi µv ) P v2Nu |sim(u, v)| v2Nu : cote(i.e., rating)donnéparleclientu auproduiti :cotemoyennedonnéeparleclientu sim(u, v) :similaritéentrelesclientsu etv (ex: corrélation) – Nu : k-plus-proches voisins de u, basé sur sim(u,v) – DépartementdegénielogicieletdesTI MTI820Hiver2011– ©S.Chafki,C.Desrosiers 66 Recommandationsdeproduits • Approcheparsimilaritédeproduits: – Unclientestsusceptible d’aimerunproduits’ilaimedesproduits similaires,i.e.desproduitssouventachetésparlesmêmesclients rui = µi + – µi P j2Ni P sim(i, j)(ruj j2Ni µj ) |sim(i, j)| :cotemoyennedonnéeauproduiti – sim(i, j) :similaritéentrelesproduitsi etj (ex: corrélation) – Ni : k-plus-proches voisins de i, basé sur sim(i,j) DépartementdegénielogicieletdesTI MTI820Hiver2011– ©S.Chafki,C.Desrosiers 67 Recommandationsdeproduits • Approcheparrégression: – Estimel’évaluationd’unclientu pourunproduiti àl’aided’unmodèle linéaire: rui ⇠ pTu qi – pu et qi correspondent à des vecteurs d’attributs caractéristiques (factor vectors) – Lesfacteurssontobtenusenminimisantl’erreur quadratique moyennedeprédictionsurl’ensembleR desexemples: 1 |R| X rui 2 T pu qi (u,i,rui )2R DépartementdegénielogicieletdesTI MTI820Hiver2011– ©S.Chafki,C.Desrosiers 68 Tiréde:kddnuget.com© DépartementdegénielogicieletdesTI MTI820Hiver2011– ©S.Chafki,C.Desrosiers 69