• les différentes étapes processus de data mining • Pré-traitement des données • Des données à la connaissance • Post-traitement de la connaissance • Les méthodes et algorithmes qui transforme les données en connaissances • Les méthodes d’évaluation • Etudier quelques cas en utilisant Weka Thèmes du cours • Cours (CM) ! Données et Challenges ! Méthodes et algorithmes ! Evaluation et implémentation (Weka) • Travaux dirigés (TD) ! Etudes d’algorithmes et de méthodes ! ! Utilisation de différents algorithmes sur diverses données ! Implémentations – voir Exercices Extra-ondeconnaissances–4A–2016 • Appréhender le contexte et les enjeux • Se familiariser avec les concepts de base • Nicolas Durand, Mohamed Quafafou • • Travaux pratiques (TP) Contact:[email protected] Objectifs • Intervenants Extra-ondeconnaissances–4A–2016 MohamedQuafafou,NicolasDurand PolytechMarseille–Aix-MarseilleUniv.) Intervenantsetthèmes Organisation • Evaluation • Note de contrôle continue – durant les TP (25%) • Note final Examen (75%) • Ressources • Voir pages personnelles des intervenants • Voir les références précisés dans les supports de Cours/TD/TP • Contacts • Réception sur RdV • Mohamed Quafafou, Bureau 128 (devant salle 127) Extra-ondeconnaissances–4A–2016 Extractiondeconnaissance Datamining–KDD–etc. Extra-ondeconnaissances–4A–2016 22/05/16 1 22/05/16 • Introduc-on • Données • MéthodesetAlgorithmes • Appren-ssagesupervisé • Appren-ssagenonsupervisé • Méthodesd’évalua-on • Implémenta-on • Applica-on PourquoiDataMining? • Ladonnéesestlenouveaupétrole–ondoit apprendreàl’analyser!RapportCommission Européenne. • SEASEARCHRCH Extra-ondeconnaissances–4A–2016 Plan Extra-ondeconnaissances–4A–2016 ORGANIZE,SEARCH,VISUALIZE,SUMMARIZE,PREDICT,UNDERSTAND • Mediaetinforma-on • Informa-ontextuelle–fluxRSS • JournauxTV h`p://voxalead.labs.exalead.com/ PourquoiDataMining? • Commerceenligneete-marke-ng • Pourquoime`reunproduitàcotéd’unautredansunrayon? • Comportementdesclients? Extra-ondeconnaissances–4A–2016 PourquoiDataMining? Extra-ondeconnaissances–4A–2016 Chercher,Organiser,Comprendre,Résumer,etc. Tracer,Adapter,S-muler,Prédire,An-ciper,etc. Transformer,Reconnaître,etc. 2 • Disposi-fsfixesdansunevilleouuncentrecommerciale! • Disposi-fsmobiles • Systèmesderecommanda-on(Web,Mobile,TV,etc.) PourquoiDataMining? • Partageetdiffusion • Mesmusiques,mesphotos,mesamis,mes…! • Mesplaylists,cequej’aime,etc. Partager,diffuser,personnaliserrecommanda-ons,etc. • Acquisi-ondedonnées(CasdesTaxis) • DonnéesMobiles • Animaux,etc. Geo-codage,ne`oyage,Mining,etc. Extra-ondeconnaissances–4A–2016 Collecter,Prédire,SurveillerAn-ciper,etc. • Analysedetrajectoires Extra-ondeconnaissances–4A–2016 • Publicitéciblée PourquoiDataMining? PourquoiDataMining? • Avisetsen-ments • J’achète,j’u-liseetjedonnemonavis! • Mescommentairesetscores, Extra-ondeconnaissances–4A–2016 PourquoiDataMining? Extra-ondeconnaissances–4A–2016 22/05/16 Analyser,avisglobal,sen-mentgénéral,etc. 3 Extra-ondeconnaissances–4A–2016 PourquoiDataMining? • Jetweets! • J’achète,j’u-liseetjedonnemonavis! • Mescommentairesetscores, BigData Extra-ondeconnaissances–4A–2016 22/05/16 Extra-ondeconnaissances–4A–2016 Multilingues • Limitesd’unmots? • Lesmotsnesontpastoujoursséparéspardesespaces! • ExempleenVietnamien • Một_luật_gia_cầm_cự_với_,nh_hình_hiện_nay. • Ilya10syllables,selonlafaçonaveclaquellevouslesdivisezvous ob-endraidessignifica-onsdifférentes! Formatsdedonnées • Diversitédesformatsdedonnées • • • • • • • • • Rela-onnelle Texte Ensemble Séquence Graphe Hypergraphe Image Vidéo Etc. Extra-ondeconnaissances–4A–2016 Partager,surveiller,Suivre,Cartographier,etc. ! 4 Datamining Visualisa-on Evalua-on Interpréta-on Pré-traitements Sélec-on Basededonnées/ Datawarehouse Quedois-jefaire demesdonnées? Classifica-on Es-ma-on Regroupement[clustering] Analysededépendances Séquences Visualisa-on Résumé[summariza-on] Détec-ondedévia-on Réseauxde neurones Highperformance compu-ng Datawarehouse Sta-s-ques Systèmes experts Visualisa-on Basededonnées OLAP Appren-ssage Op-misa-on Extra-ondeconnaissances–4A–2016 Principalestâches Agents intelligents Extra-ondeconnaissances–4A–2016 Transforma-on Domainesconcernés Probabilités Dequois’agitt-il? • C’est un • processus interac4f, itéra4f et "non-trivial", d'identification de connaissances qui sont valides, nouvelles, potentiellement utiles et compréhensibles. • Ce processus cyclique • comporte les phases de sélec4on de données, de pré-traitements, de transforma4ons, de datamining, d'interpréta4on et d'évalua4on de la connaissance extraite. Extra-ondeconnaissances–4A–2016 Processus Extra-ondeconnaissances–4A–2016 22/05/16 5 • La connaissance extraite, testée et validée, peut être directement intégrée dans des systèmes d'aide à la décision. Applications • Différents domaines • • • • • • • • • • Base de données marketing, Détection des fraudes, Banque , Santé, Ressources humaines, Assurance, Télécommunication, Transport, Investissement, Sport • Trouver les modèles significatifs • Stratégie de recherche et d’évaluation • Traiter des données imparfaites • Critère de fiabilité • Traiter de grosses bases de données Est-ceune tortue? Estimations • Définition du problème, du but et des tâches (10%) • Data warehousing (50%) • Organisation des données pour atteindre les objectifs d'analyse • Extraction de connaissances (30%) • Analyse des données pour permettre la prise de décision • Optimisation et aide à la décision (10%) Extra-ondeconnaissances–4A–2016 • la phase précise dans le processus de KDD où l’on applique un ou plusieurs algorithmes d'apprentissage pour induire des informations plus générales que celles contenues dans les données. ProblèmesetMéthodes Extra-ondeconnaissances–4A–2016 • Le data mining est Extra-ondeconnaissances–4A–2016 Datamining,c’estquoi? Extra-ondeconnaissances–4A–2016 22/05/16 6 Suppositionvs.Découverte Informa-ondécouverte Ques-ons Supposi-ons Réponse F R O N T A L Ou-lsKDD Ques-ons Réponse Supposi-ons Extra-ondeconnaissances–4A–2016 22/05/16 7