SyllabusdescoursduMaster2DataMining Deeplearning Prérequis : algèbre linéaire (espaces vectoriels), bases en apprentissage automatique et en optimisation Mots-clefs: perceptron multicouches, apprentissage par descente de gradient, réseaux convolutifs,auto-encodeurs,réseauxrécurrents Intervenants:JairoCugliari(UniversitéLyon2)etJulienVelcin(UniversitéLyon2) Volumehoraire:21h Objectifs Présenter le concept des réseaux de neurones profonds (deep learning) et ses applications notammentdansletraitementdesdonnéesimages,textuellesetsérieschronologiques Connaissancesàacquérir 1.Historiquedesréseauxdeneurones 2.Principalesdéfinitionsetapplications 3.Architectureduperceptronsimple 4.Réseauxdeneuronesmulticouches 5.Apprentissagedesparamètrespardescentedugradient 6.Architecturesspécialisées:Auto-encodeurs,réseauxrécurrents,réseauxdeconvolution Capacitésetcompétencesàacquérir 1.Mettreenplaceunearchitectureprofonde 2.Miseenpratiquesurlogicielspécialisé(ex.Python/TheanoouR) Modalitéspédagogiques 30%pourlaprésentationdesconceptsetdesalgorithmes,70%pourlesapplicationsavecun logicielspécialisé Textmining Prérequis:algèbrelinéaire(espacesvectoriels),analysedesdonnées,basesdulangageR Mots-clefs:représentation,modè lesvectoriels,nettoyagedesdonné estextuelles,classification, modè lesthé matiques(topicmodels),plongementdemots(wordembedding) Intervenants:JulienVelcin(UniversitéLyon2) Volumehoraire:21h Objectifs L'objectifdececoursestdedonnerlesbasesdel’analyseautomatiquedesdonnéestextuelles enadoptantuneapprocheessentiellementstatistique.DesnotionsdeTraitementAutomatique desLangues(TAL)serontégalementdispensées,ainsiqu’uneouvertureversdes développementsrécentstelsquelamodélisationthématique(topicmodeling)etleplongement demots(wordembedding).Destravauxpratiquessontprévusafindetesterlesélémentsvusen coursenutilisantlelangageR. Connaissancesàacquérir 1. Particularité sdesdonné estextuelles(multiplicité desrepré sentationspossibles,malé diction deladimension,donné esbruité esetsubjectives,etc.). 2. Applications phares de la fouille de textes(recherche d’information, classification de documents,ré sumé automatiquedegrandscorpus,etc.). 3. E] lé mentsfondamentauxpourdé crireetcomparerdesdonné estextuelles,detellesorteà ce qu’ellespuissentê tremanipulé esparlestechniquesissuesdelafouillededonné es,tellesque l’analysededonné esetl’apprentissageautomatique. 4. Notions complé mentaires issues du TAL (é tiquetage de caté gories grammaticales, dé sambiguı̈sation,etc.). 5. Commentinté grerdesconnaissancesissuesdebasesdeconnaissances(baselexicalecomme WordNetouontologiededomaine). 6. Notionsplusavancé estellesquel’extractionautomatiquedethé matiquesetleplongementde mots. Capacitésetcompétencesàacquérir 1. Transformer des donné es textuelles (issues de fichiers au format texte ou de structures arborescentes comme du .html ou du .xml) en une matrice Termes x Documents facilement utilisableaveclesoutilsdefouillededonné es. 2. Ré aliser des pré traitements classiques (suppression des mots-outils, racinisation, etc.) et connaı̂trelessché masdepondé ration(ex.:TfxIDF,OKAPI). 3. Calculeretvisualiserquelquesstatistiquesducorpus(motslesplusfré quents,cooccurrences, etc.). 4. Savoirexé cutersurcesdonné esdesalgorithmesd’analyseetdefouillededonné esstandards (ex.:MDS,arbrededé cision,topicmodelsavecLDA,etc.). Modalitéspédagogiques L’enseignement se partage entre un enseignement en cours magistral (7h) et une mise en pratique des notions avec le logiciel R (14h). L’enseignement s’articule autour des sé ances suivantes: 1. Introductiongé né rale 2. Applicationsdelafouilledetextes 3. Elé mentsdebaseenfouilledetexte 4. Inté grationdeconnaissancesdanslafouilledetextes 5. Apprentissageautomatiqueetfouilledetextes 6. Apprentissagenonsupervisé etfouilledetextes Graphicalmodel Mots-clefs:réseauxbayésiens,inférenceprobabiliste,apprentissagestatistique Intervenants:PhilippeLeray(UniversitédeNantes) Volumehoraire:21h Objectifs Lareprésentationdesconnaissancesetleraisonnementàpartirdecesreprésentationsadonné naissanceàdenombreuxmodèles.Lesmodèlesgraphiquesprobabilistes,etplusprécisément lesréseauxbayésiens(RB),initiésparJudeaPearldanslesannées1980,sesontrévélésdesoutils trèspratiquespourlareprésentationdeconnaissancesincertainesetleraisonnementàpartir d’informationsincomplètes,dansdenombreuxdomainescommelabio-informatique,lagestion durisque,lemarketing,lasécuritéinformatique,letransport,etc. La partie graphique des RB offre un outil intuitif inégalable et attractif dans de nombreuses applications où les utilisateurs ont besoin de "comprendre" ce que raconte le modèle qu’ils utilisent. La construction de ces modèles à partir de données permet aussi de découvrir des connaissancesutilesauxexperts,enallant–souscertainesréserves-jusqu'àladécouvertede relationscausales. Ce cours se propose tout d'abord de définir la notion de réseau bayésien puis de donner un apercudel'utilisationdecesmodèlespourrépondreàdifférentesrequêtes(notiond'inférence ouderaisonnementprobabiliste).Nousaborderonsensuiteleproblèmedel'apprentissagedes réseaux bayésiens à partir de données complètes ou incomplètes, en commençant par la détermination des distributions de probabilité conditionnelles définies par un graphe donné (apprentissagedesparamètres),etenessayantensuitededéterminerlegraphemêmeàpartir desdonnées(apprentissagedelastructure). Nous aborderons le cas plus particulier des réseaux bayésiens causaux, et verrons comment l'apprentissagedelastructuredecesmodèlespeutmeneràladécouvertederelationscausales. Pourfinir,nousévoqueronsquelquesextensionsdesréseauxbayésiens. Connaissancesàacquérir 1.Réseauxbayésiens:définitionetnotiond'inférence -définition,notionded-séparation -lesréseauxbayésienscommemodèlesgénératifs -notiond'inférence,principedesprincipauxalgorithmes(messagepassing,junctiontree) 2.Réseauxbayésiens:apprentissagedesparamètres -maximumdevraisemblancevs.maximumaposteriori -donnéescomplètesvs.donnéesincomplètes 3.Réseauxbayésiens:apprentissagedelastructure -recherched'indépendancesconditionnellesvs.maximisationd'unscored'adéquation -lesdifférentsespacesderecherche -donnéescomplètesvs.donnéesincomplètes 4.Réseauxbayésiens:extensions -aucasdesvariablescontinues -aucasdesproblèmesdynamiques -àladécision Capacitésetcompétencesàacquérir Savoirmettreenoeuvreleformalismedesréseauxbayésienspourlamodélisationd'unsystème complexe. Savoirdéterminerlesparamètresetlastructured'unRBàpartirdedonnéeset/oud'expertises. ComprendreleprincipegénéraldesprincipalesextensionsdesRB. Modalitéspédagogiques Coursdonnésparl’UniversitédeNantes,retransmisenvisio-conférence. Model-basedlearning Pré-requis : notions de probabilités et statistiques: variable aléatoire, loi de probabilité, indépendance,estimation,vraisemblance,espéranceconditionnelle. Mots-clefs:classification,clustering,modèlesdemélanges,algorithmeEM,sélectiondemodèles Intervenants:JulienJacques(UniversitéLyon2) Volumehoraire:21h Objectifs Aprèsunrappelgénéraldesprincipalesméthodesdeclassificationetdeclustering,l’objectifde cecoursestdedécouvrirlaclassificationetleclusteringparlebiaisdesmodèlesdemélanges, leurestimation,lesavantagesetlesinconvénientsdecesapproches.Cestechniquesserontmises enpratiquesurdonnéesréellesàl’aidedulogicielR. Connaissancesàacquérir Lemodèledemélange,seshypothèsesetsesconséquencesentermesderègledeclassification. L’estimation du modèle de mélange par maximum de vraisemblance dans le cadre supervisé (classification) et non supervisé (clustering). L’algorithme EM et ses variantes pour la maximisationdelavraisemblancedanslecadresupervisé.Lesmodèlesdemélangesspécifiques aux données modernes: grande dimension, natures diverses. Les techniques de choix de modèles.Lemodèledemélangedanslecadreduco-clustering. Capacitésetcompétencesàacquérir Savoirrésoudreunproblèmedeclassificationsuperviséeounonsuperviséeavecdesapproches à base de modèles probabilistes, savoir identifier les bons modèles, choisir entre différents modèles.Faceàunnouveaumodèle,êtrecapabledemettreenplaceunestratégied’estimation, dechoixdemodèles,etlesimplémenterinformatiquementsouslelogicielR. Modalitéspédagogiques LesséancesalternerontentrecoursetmiseenpratiquesousR.Lescoursserontàlafoissousla forme de présentation électronique vidéo-projetée mais également au tableau pour les développementsmathématiqueslespluspointus.Destravauxpratiquesserontàréaliserentre lesséances.Lecoursseraévaluéàlafoisparunexamenécritetparunprojetd’implémentation souslelogicielR. Advancedsupervisedlearning Pré-requis:notionsenalgèbrelinéaire,enoptimisation,enmodélisationstatistique Mots-clefs : apprentissage supervisé, régression, classement, modèles pénalisés et parcimonieux,méthodesensemblistes. Intervenants:JulienAh-Pine(UniversitéLyon2) Volumehoraire:30h Objectifs Maîtriserlesfondementsetlamiseenœuvredeplusieursméthodesenapprentissagesupervisé. Connaissancesàacquérir Lesconnaissancesdebaseenapprentissage(différencesentresupervisé,nonsupervisé;entre régression et classement; entre méthodes paramétriques et non paramétrique; protocole expérimental…).Quelquesproblèmesfondamentauxenapprentissage(arbitragebiais-variance, fléaudeladimensionnalité...).Fondements,hypothèsesettechniquesderésolutiondeplusieurs approchesrécentesenapprentissagesupervisé:méthodesavecsélectiond’instances(SVM…) oudevariables(modèlespénalisés,arbresdécisionnels…);méthodesd’ensemble(boosting, bagging,forêtsaléatoires…). Capacitésetcompétencesàacquérir Savoirlesavantagesetlimitesdesméthodesétudiées.Savoirmettreenœuvrecesméthodessous lelogicielR. Modalitéspédagogiques L’enseignementcomporteunepartiecoursmagistralde21hetunepartiemiseenpratique/étudede casde9h.Lessupportsdecourssontmisàdispositionetprojetéslorsdesséances.Desexercices devront être résolus en dehors des séances. La partie mise en pratique concerne l’utilisation du logicielRpourl’illustrationdecertainsconceptsvusencourset/oul’implémentationd’algorithmes et/oul’étuded’uncaspratique.L’évaluationcomporteraunexamenindividuelsurtableetundossier collectifàrendreetàsoutenir. Manifoldlearning Prérequis:Notionsd’Algèbrematricielleetoptimisation Mots-clefs : réduction non linéaire de la dimension, données en grandes dimensions, visualisationdesdonnées, Intervenants:JairoCugliari(UniversitéLyon2) Volumehoraire:21h Objectifs Maîtriserlesapprochesderéductiondeladimension,représentationdesdonnéesetextraction desattributsdanslecadrededonnéesengrandedimension. Connaissancesàacquérir 1. 2. 3. 4. Introduction.Différencesentreapprentissagesuperviséetnonsupervisé Méthodeslinéaires Méthodesànoyau,astucedunoyau(kerneltrick) Méthodesnonlinéaires Capacitésetcompétencesàacquérir Bonnemaîtrisedesméthodesd'apprentissagenonsuperviséenotammentcellesadaptéesaux grandesbasesdesdonnées. Modalitéspédagogiques L’enseignementsepartageentreunenseignementencoursmagistraletunemiseenpratiquedes notionsaveclelogicielR. Bigdatamanagement&analytics Prérequis:Maîtrisedesbasesdedonnéesrelationnelles Mots-clefs:Entrepô tsdedonné es,OLAP,ETL,NoSQL,Hadoop,ApacheSpark Intervenants:JérômeDarmont(UniversitéLyon2)etYouakimBadr(INSALyon) Volumehoraire:21h Objectifs Aborderlesconceptsetlapratiquedel’entreposagededonnées,ainsiquelesbasesdedonnées NoSQLetletraitementdedonnéesenenvironnementsdistribuésàgrandeéchelle. Connaissancesàacquérir • Modé lisationmultidimensionnelle,inté grationdedonné es(ETL),analyseenligne(OLAP) • Modè lesNoSQL,architecturesdistribué es Capacitésetcompétencesàacquérir • Modé lisationmultidimensionnelleaveclesformalismesUMLetGolfarelli-Rizzi • Parallé lisationdecodeinformatique • PratiquedeslogicielsIndycoBuilder,MicroStrategyDesktop,TableauPublic,MongoDB, ApacheSpark Modalitéspédagogiques Cours/TDetprojetsengroupes Parallelcomputingfordatascience Prérequis:Notionsdeprogrammation Mots-clefs:calculscientifiquedehauteperformance,statistiquecomputationnelle. Intervenants:JairoCugliari(UniversitéLyon2) Volumehoraire:21h Objectifs Maîtriserlestechniquesdecalculscientifiquedehauteperformancepourl'analysedesdonnées. Connaissancesàacquérir 1. Bonnespratiquesdecodagepourladatascience 2. Détectiondegoulotsd’étranglement(bottlenecks) 3. Différenceentreenvironnementsdistribuéeetàmémoirepartagée 4. Parallélisationdecodeinformatique Capacitésetcompétencesàacquérir Savoiridentifierunpointdeblocagedansuncodeinformatiqueetmettreenplacedessolutions. Modalitéspédagogiques L’enseignementsepartageentreunenseignementencoursmagistraletunemiseenpratiquedes notionsaveclelogicielR.