Syllabus des cours - Université Lyon 2

publicité
SyllabusdescoursduMaster2DataMining
Deeplearning
Prérequis : algèbre linéaire (espaces vectoriels), bases en apprentissage automatique et en
optimisation
Mots-clefs: perceptron multicouches, apprentissage par descente de gradient, réseaux
convolutifs,auto-encodeurs,réseauxrécurrents
Intervenants:JairoCugliari(UniversitéLyon2)etJulienVelcin(UniversitéLyon2)
Volumehoraire:21h
Objectifs
Présenter le concept des réseaux de neurones profonds (deep learning) et ses applications
notammentdansletraitementdesdonnéesimages,textuellesetsérieschronologiques
Connaissancesàacquérir
1.Historiquedesréseauxdeneurones
2.Principalesdéfinitionsetapplications
3.Architectureduperceptronsimple
4.Réseauxdeneuronesmulticouches
5.Apprentissagedesparamètrespardescentedugradient
6.Architecturesspécialisées:Auto-encodeurs,réseauxrécurrents,réseauxdeconvolution
Capacitésetcompétencesàacquérir
1.Mettreenplaceunearchitectureprofonde
2.Miseenpratiquesurlogicielspécialisé(ex.Python/TheanoouR)
Modalitéspédagogiques
30%pourlaprésentationdesconceptsetdesalgorithmes,70%pourlesapplicationsavecun
logicielspécialisé
Textmining
Prérequis:algèbrelinéaire(espacesvectoriels),analysedesdonnées,basesdulangageR
Mots-clefs:représentation,modè lesvectoriels,nettoyagedesdonné estextuelles,classification,
modè lesthé matiques(topicmodels),plongementdemots(wordembedding)
Intervenants:JulienVelcin(UniversitéLyon2)
Volumehoraire:21h
Objectifs
L'objectifdececoursestdedonnerlesbasesdel’analyseautomatiquedesdonnéestextuelles
enadoptantuneapprocheessentiellementstatistique.DesnotionsdeTraitementAutomatique
desLangues(TAL)serontégalementdispensées,ainsiqu’uneouvertureversdes
développementsrécentstelsquelamodélisationthématique(topicmodeling)etleplongement
demots(wordembedding).Destravauxpratiquessontprévusafindetesterlesélémentsvusen
coursenutilisantlelangageR.
Connaissancesàacquérir
1. Particularité sdesdonné estextuelles(multiplicité desrepré sentationspossibles,malé diction
deladimension,donné esbruité esetsubjectives,etc.).
2. Applications phares de la fouille de textes(recherche d’information, classification de
documents,ré sumé automatiquedegrandscorpus,etc.).
3. E] lé mentsfondamentauxpourdé crireetcomparerdesdonné estextuelles,detellesorteà ce
qu’ellespuissentê tremanipulé esparlestechniquesissuesdelafouillededonné es,tellesque
l’analysededonné esetl’apprentissageautomatique.
4. Notions complé mentaires issues du TAL (é tiquetage de caté gories grammaticales,
dé sambiguı̈sation,etc.).
5. Commentinté grerdesconnaissancesissuesdebasesdeconnaissances(baselexicalecomme
WordNetouontologiededomaine).
6. Notionsplusavancé estellesquel’extractionautomatiquedethé matiquesetleplongementde
mots.
Capacitésetcompétencesàacquérir
1. Transformer des donné es textuelles (issues de fichiers au format texte ou de structures
arborescentes comme du .html ou du .xml) en une matrice Termes x Documents facilement
utilisableaveclesoutilsdefouillededonné es.
2. Ré aliser des pré traitements classiques (suppression des mots-outils, racinisation, etc.) et
connaı̂trelessché masdepondé ration(ex.:TfxIDF,OKAPI).
3. Calculeretvisualiserquelquesstatistiquesducorpus(motslesplusfré quents,cooccurrences,
etc.).
4. Savoirexé cutersurcesdonné esdesalgorithmesd’analyseetdefouillededonné esstandards
(ex.:MDS,arbrededé cision,topicmodelsavecLDA,etc.).
Modalitéspédagogiques
L’enseignement se partage entre un enseignement en cours magistral (7h) et une mise en
pratique des notions avec le logiciel R (14h). L’enseignement s’articule autour des sé ances
suivantes:
1. Introductiongé né rale
2. Applicationsdelafouilledetextes
3. Elé mentsdebaseenfouilledetexte
4. Inté grationdeconnaissancesdanslafouilledetextes
5. Apprentissageautomatiqueetfouilledetextes
6. Apprentissagenonsupervisé etfouilledetextes
Graphicalmodel
Mots-clefs:réseauxbayésiens,inférenceprobabiliste,apprentissagestatistique
Intervenants:PhilippeLeray(UniversitédeNantes)
Volumehoraire:21h
Objectifs
Lareprésentationdesconnaissancesetleraisonnementàpartirdecesreprésentationsadonné
naissanceàdenombreuxmodèles.Lesmodèlesgraphiquesprobabilistes,etplusprécisément
lesréseauxbayésiens(RB),initiésparJudeaPearldanslesannées1980,sesontrévélésdesoutils
trèspratiquespourlareprésentationdeconnaissancesincertainesetleraisonnementàpartir
d’informationsincomplètes,dansdenombreuxdomainescommelabio-informatique,lagestion
durisque,lemarketing,lasécuritéinformatique,letransport,etc.
La partie graphique des RB offre un outil intuitif inégalable et attractif dans de nombreuses
applications où les utilisateurs ont besoin de "comprendre" ce que raconte le modèle qu’ils
utilisent. La construction de ces modèles à partir de données permet aussi de découvrir des
connaissancesutilesauxexperts,enallant–souscertainesréserves-jusqu'àladécouvertede
relationscausales.
Ce cours se propose tout d'abord de définir la notion de réseau bayésien puis de donner un
apercudel'utilisationdecesmodèlespourrépondreàdifférentesrequêtes(notiond'inférence
ouderaisonnementprobabiliste).Nousaborderonsensuiteleproblèmedel'apprentissagedes
réseaux bayésiens à partir de données complètes ou incomplètes, en commençant par la
détermination des distributions de probabilité conditionnelles définies par un graphe donné
(apprentissagedesparamètres),etenessayantensuitededéterminerlegraphemêmeàpartir
desdonnées(apprentissagedelastructure).
Nous aborderons le cas plus particulier des réseaux bayésiens causaux, et verrons comment
l'apprentissagedelastructuredecesmodèlespeutmeneràladécouvertederelationscausales.
Pourfinir,nousévoqueronsquelquesextensionsdesréseauxbayésiens.
Connaissancesàacquérir
1.Réseauxbayésiens:définitionetnotiond'inférence
-définition,notionded-séparation
-lesréseauxbayésienscommemodèlesgénératifs
-notiond'inférence,principedesprincipauxalgorithmes(messagepassing,junctiontree)
2.Réseauxbayésiens:apprentissagedesparamètres
-maximumdevraisemblancevs.maximumaposteriori
-donnéescomplètesvs.donnéesincomplètes
3.Réseauxbayésiens:apprentissagedelastructure
-recherched'indépendancesconditionnellesvs.maximisationd'unscored'adéquation
-lesdifférentsespacesderecherche
-donnéescomplètesvs.donnéesincomplètes
4.Réseauxbayésiens:extensions
-aucasdesvariablescontinues
-aucasdesproblèmesdynamiques
-àladécision
Capacitésetcompétencesàacquérir
Savoirmettreenoeuvreleformalismedesréseauxbayésienspourlamodélisationd'unsystème
complexe.
Savoirdéterminerlesparamètresetlastructured'unRBàpartirdedonnéeset/oud'expertises.
ComprendreleprincipegénéraldesprincipalesextensionsdesRB.
Modalitéspédagogiques
Coursdonnésparl’UniversitédeNantes,retransmisenvisio-conférence.
Model-basedlearning
Pré-requis : notions de probabilités et statistiques: variable aléatoire, loi de probabilité,
indépendance,estimation,vraisemblance,espéranceconditionnelle.
Mots-clefs:classification,clustering,modèlesdemélanges,algorithmeEM,sélectiondemodèles
Intervenants:JulienJacques(UniversitéLyon2)
Volumehoraire:21h
Objectifs
Aprèsunrappelgénéraldesprincipalesméthodesdeclassificationetdeclustering,l’objectifde
cecoursestdedécouvrirlaclassificationetleclusteringparlebiaisdesmodèlesdemélanges,
leurestimation,lesavantagesetlesinconvénientsdecesapproches.Cestechniquesserontmises
enpratiquesurdonnéesréellesàl’aidedulogicielR.
Connaissancesàacquérir
Lemodèledemélange,seshypothèsesetsesconséquencesentermesderègledeclassification.
L’estimation du modèle de mélange par maximum de vraisemblance dans le cadre supervisé
(classification) et non supervisé (clustering). L’algorithme EM et ses variantes pour la
maximisationdelavraisemblancedanslecadresupervisé.Lesmodèlesdemélangesspécifiques
aux données modernes: grande dimension, natures diverses. Les techniques de choix de
modèles.Lemodèledemélangedanslecadreduco-clustering.
Capacitésetcompétencesàacquérir
Savoirrésoudreunproblèmedeclassificationsuperviséeounonsuperviséeavecdesapproches
à base de modèles probabilistes, savoir identifier les bons modèles, choisir entre différents
modèles.Faceàunnouveaumodèle,êtrecapabledemettreenplaceunestratégied’estimation,
dechoixdemodèles,etlesimplémenterinformatiquementsouslelogicielR.
Modalitéspédagogiques
LesséancesalternerontentrecoursetmiseenpratiquesousR.Lescoursserontàlafoissousla
forme de présentation électronique vidéo-projetée mais également au tableau pour les
développementsmathématiqueslespluspointus.Destravauxpratiquesserontàréaliserentre
lesséances.Lecoursseraévaluéàlafoisparunexamenécritetparunprojetd’implémentation
souslelogicielR.
Advancedsupervisedlearning
Pré-requis:notionsenalgèbrelinéaire,enoptimisation,enmodélisationstatistique
Mots-clefs : apprentissage supervisé, régression, classement, modèles pénalisés et
parcimonieux,méthodesensemblistes.
Intervenants:JulienAh-Pine(UniversitéLyon2)
Volumehoraire:30h
Objectifs
Maîtriserlesfondementsetlamiseenœuvredeplusieursméthodesenapprentissagesupervisé.
Connaissancesàacquérir
Lesconnaissancesdebaseenapprentissage(différencesentresupervisé,nonsupervisé;entre
régression et classement; entre méthodes paramétriques et non paramétrique; protocole
expérimental…).Quelquesproblèmesfondamentauxenapprentissage(arbitragebiais-variance,
fléaudeladimensionnalité...).Fondements,hypothèsesettechniquesderésolutiondeplusieurs
approchesrécentesenapprentissagesupervisé:méthodesavecsélectiond’instances(SVM…)
oudevariables(modèlespénalisés,arbresdécisionnels…);méthodesd’ensemble(boosting,
bagging,forêtsaléatoires…).
Capacitésetcompétencesàacquérir
Savoirlesavantagesetlimitesdesméthodesétudiées.Savoirmettreenœuvrecesméthodessous
lelogicielR.
Modalitéspédagogiques
L’enseignementcomporteunepartiecoursmagistralde21hetunepartiemiseenpratique/étudede
casde9h.Lessupportsdecourssontmisàdispositionetprojetéslorsdesséances.Desexercices
devront être résolus en dehors des séances. La partie mise en pratique concerne l’utilisation du
logicielRpourl’illustrationdecertainsconceptsvusencourset/oul’implémentationd’algorithmes
et/oul’étuded’uncaspratique.L’évaluationcomporteraunexamenindividuelsurtableetundossier
collectifàrendreetàsoutenir.
Manifoldlearning
Prérequis:Notionsd’Algèbrematricielleetoptimisation
Mots-clefs : réduction non linéaire de la dimension, données en grandes dimensions,
visualisationdesdonnées,
Intervenants:JairoCugliari(UniversitéLyon2)
Volumehoraire:21h
Objectifs
Maîtriserlesapprochesderéductiondeladimension,représentationdesdonnéesetextraction
desattributsdanslecadrededonnéesengrandedimension.
Connaissancesàacquérir
1.
2.
3.
4.
Introduction.Différencesentreapprentissagesuperviséetnonsupervisé
Méthodeslinéaires
Méthodesànoyau,astucedunoyau(kerneltrick)
Méthodesnonlinéaires
Capacitésetcompétencesàacquérir
Bonnemaîtrisedesméthodesd'apprentissagenonsuperviséenotammentcellesadaptéesaux
grandesbasesdesdonnées.
Modalitéspédagogiques
L’enseignementsepartageentreunenseignementencoursmagistraletunemiseenpratiquedes
notionsaveclelogicielR.
Bigdatamanagement&analytics
Prérequis:Maîtrisedesbasesdedonnéesrelationnelles
Mots-clefs:Entrepô tsdedonné es,OLAP,ETL,NoSQL,Hadoop,ApacheSpark
Intervenants:JérômeDarmont(UniversitéLyon2)etYouakimBadr(INSALyon)
Volumehoraire:21h
Objectifs
Aborderlesconceptsetlapratiquedel’entreposagededonnées,ainsiquelesbasesdedonnées
NoSQLetletraitementdedonnéesenenvironnementsdistribuésàgrandeéchelle.
Connaissancesàacquérir
• Modé lisationmultidimensionnelle,inté grationdedonné es(ETL),analyseenligne(OLAP)
• Modè lesNoSQL,architecturesdistribué es
Capacitésetcompétencesàacquérir
• Modé lisationmultidimensionnelleaveclesformalismesUMLetGolfarelli-Rizzi
• Parallé lisationdecodeinformatique
• PratiquedeslogicielsIndycoBuilder,MicroStrategyDesktop,TableauPublic,MongoDB,
ApacheSpark
Modalitéspédagogiques
Cours/TDetprojetsengroupes
Parallelcomputingfordatascience
Prérequis:Notionsdeprogrammation
Mots-clefs:calculscientifiquedehauteperformance,statistiquecomputationnelle.
Intervenants:JairoCugliari(UniversitéLyon2)
Volumehoraire:21h
Objectifs
Maîtriserlestechniquesdecalculscientifiquedehauteperformancepourl'analysedesdonnées.
Connaissancesàacquérir
1. Bonnespratiquesdecodagepourladatascience
2. Détectiondegoulotsd’étranglement(bottlenecks)
3. Différenceentreenvironnementsdistribuéeetàmémoirepartagée
4. Parallélisationdecodeinformatique
Capacitésetcompétencesàacquérir
Savoiridentifierunpointdeblocagedansuncodeinformatiqueetmettreenplacedessolutions.
Modalitéspédagogiques
L’enseignementsepartageentreunenseignementencoursmagistraletunemiseenpratiquedes
notionsaveclelogicielR.
Téléchargement