Extraction de connaissance

publicité
•  les différentes étapes processus de data mining
•  Pré-traitement des données
•  Des données à la connaissance
•  Post-traitement de la connaissance
•  Les méthodes et algorithmes qui transforme les données en
connaissances
•  Les méthodes d’évaluation
•  Etudier quelques cas en utilisant Weka
Thèmes du cours
•  Cours (CM)
!  Données et Challenges
!  Méthodes et algorithmes
!  Evaluation et implémentation (Weka)
•  Travaux dirigés (TD)
!  Etudes d’algorithmes et de méthodes
!
!  Utilisation de différents algorithmes sur diverses données
!  Implémentations – voir Exercices
Extra-ondeconnaissances–4A–2016
•  Appréhender le contexte et les enjeux
•  Se familiariser avec les concepts de base
•  Nicolas Durand, Mohamed Quafafou
• 
•  Travaux pratiques (TP)
Contact:[email protected]
Objectifs
•  Intervenants
Extra-ondeconnaissances–4A–2016
MohamedQuafafou,NicolasDurand
PolytechMarseille–Aix-MarseilleUniv.)
Intervenantsetthèmes
Organisation
•  Evaluation
•  Note de contrôle continue – durant les TP (25%)
•  Note final Examen (75%)
•  Ressources
•  Voir pages personnelles des intervenants
•  Voir les références précisés dans les supports de Cours/TD/TP
•  Contacts
•  Réception sur RdV
•  Mohamed Quafafou, Bureau 128 (devant salle 127)
Extra-ondeconnaissances–4A–2016
Extractiondeconnaissance
Datamining–KDD–etc.
Extra-ondeconnaissances–4A–2016
22/05/16
1
22/05/16
•  Introduc-on
•  Données
•  MéthodesetAlgorithmes
•  Appren-ssagesupervisé
•  Appren-ssagenonsupervisé
•  Méthodesd’évalua-on
•  Implémenta-on
•  Applica-on
PourquoiDataMining?
•  Ladonnéesestlenouveaupétrole–ondoit
apprendreàl’analyser!RapportCommission
Européenne.
•  SEASEARCHRCH
Extra-ondeconnaissances–4A–2016
Plan
Extra-ondeconnaissances–4A–2016
ORGANIZE,SEARCH,VISUALIZE,SUMMARIZE,PREDICT,UNDERSTAND
•  Mediaetinforma-on
•  Informa-ontextuelle–fluxRSS
•  JournauxTV
h`p://voxalead.labs.exalead.com/
PourquoiDataMining?
•  Commerceenligneete-marke-ng
•  Pourquoime`reunproduitàcotéd’unautredansunrayon?
•  Comportementdesclients?
Extra-ondeconnaissances–4A–2016
PourquoiDataMining?
Extra-ondeconnaissances–4A–2016
Chercher,Organiser,Comprendre,Résumer,etc.
Tracer,Adapter,S-muler,Prédire,An-ciper,etc.
Transformer,Reconnaître,etc.
2
•  Disposi-fsfixesdansunevilleouuncentrecommerciale!
•  Disposi-fsmobiles
•  Systèmesderecommanda-on(Web,Mobile,TV,etc.)
PourquoiDataMining?
•  Partageetdiffusion
•  Mesmusiques,mesphotos,mesamis,mes…!
•  Mesplaylists,cequej’aime,etc.
Partager,diffuser,personnaliserrecommanda-ons,etc.
•  Acquisi-ondedonnées(CasdesTaxis)
•  DonnéesMobiles
•  Animaux,etc.
Geo-codage,ne`oyage,Mining,etc.
Extra-ondeconnaissances–4A–2016
Collecter,Prédire,SurveillerAn-ciper,etc.
•  Analysedetrajectoires
Extra-ondeconnaissances–4A–2016
•  Publicitéciblée
PourquoiDataMining?
PourquoiDataMining?
•  Avisetsen-ments
•  J’achète,j’u-liseetjedonnemonavis!
•  Mescommentairesetscores,
Extra-ondeconnaissances–4A–2016
PourquoiDataMining?
Extra-ondeconnaissances–4A–2016
22/05/16
Analyser,avisglobal,sen-mentgénéral,etc.
3
Extra-ondeconnaissances–4A–2016
PourquoiDataMining?
•  Jetweets!
•  J’achète,j’u-liseetjedonnemonavis!
•  Mescommentairesetscores,
BigData
Extra-ondeconnaissances–4A–2016
22/05/16
Extra-ondeconnaissances–4A–2016
Multilingues
•  Limitesd’unmots?
•  Lesmotsnesontpastoujoursséparéspardesespaces!
•  ExempleenVietnamien
•  Một_luật_gia_cầm_cự_với_,nh_hình_hiện_nay.
•  Ilya10syllables,selonlafaçonaveclaquellevouslesdivisezvous
ob-endraidessignifica-onsdifférentes!
Formatsdedonnées
•  Diversitédesformatsdedonnées
• 
• 
• 
• 
• 
• 
• 
• 
• 
Rela-onnelle
Texte
Ensemble
Séquence
Graphe
Hypergraphe
Image
Vidéo
Etc.
Extra-ondeconnaissances–4A–2016
Partager,surveiller,Suivre,Cartographier,etc.
!
4
Datamining
Visualisa-on
Evalua-on
Interpréta-on
Pré-traitements
Sélec-on
Basededonnées/
Datawarehouse
Quedois-jefaire
demesdonnées?
  Classifica-on
  Es-ma-on
  Regroupement[clustering]
  Analysededépendances
  Séquences
  Visualisa-on
  Résumé[summariza-on]
  Détec-ondedévia-on
Réseauxde
neurones
Highperformance
compu-ng
Datawarehouse
Sta-s-ques
Systèmes
experts
Visualisa-on
Basededonnées
OLAP
Appren-ssage
Op-misa-on
Extra-ondeconnaissances–4A–2016
Principalestâches
Agents
intelligents
Extra-ondeconnaissances–4A–2016
Transforma-on
Domainesconcernés
Probabilités
Dequois’agitt-il?
•  C’est un
•  processus interac4f, itéra4f et "non-trivial", d'identification de
connaissances qui sont valides, nouvelles, potentiellement utiles et
compréhensibles.
•  Ce processus cyclique
•  comporte les phases de sélec4on de données, de pré-traitements,
de transforma4ons, de datamining, d'interpréta4on et
d'évalua4on de la connaissance extraite.
Extra-ondeconnaissances–4A–2016
Processus
Extra-ondeconnaissances–4A–2016
22/05/16
5
•  La connaissance extraite, testée et validée, peut
être directement intégrée dans des systèmes
d'aide à la décision.
Applications
•  Différents domaines
• 
• 
• 
• 
• 
• 
• 
• 
• 
• 
Base de données marketing,
Détection des fraudes,
Banque ,
Santé,
Ressources humaines,
Assurance,
Télécommunication,
Transport,
Investissement,
Sport
•  Trouver les modèles significatifs
•  Stratégie de recherche et d’évaluation
•  Traiter des données imparfaites
•  Critère de fiabilité
•  Traiter de grosses bases de données
Est-ceune
tortue?
Estimations
•  Définition du problème, du but et des tâches
(10%)
•  Data warehousing (50%)
•  Organisation des données pour atteindre les objectifs d'analyse
•  Extraction de connaissances (30%)
•  Analyse des données pour permettre la prise de décision
•  Optimisation et aide à la décision (10%)
Extra-ondeconnaissances–4A–2016
•  la phase précise dans le processus de KDD où l’on applique un ou
plusieurs algorithmes d'apprentissage pour induire des
informations plus générales que celles contenues dans les données.
ProblèmesetMéthodes
Extra-ondeconnaissances–4A–2016
•  Le data mining est
Extra-ondeconnaissances–4A–2016
Datamining,c’estquoi?
Extra-ondeconnaissances–4A–2016
22/05/16
6
Suppositionvs.Découverte
Informa-ondécouverte
Ques-ons
Supposi-ons
Réponse
F
R
O
N
T
A
L
Ou-lsKDD
Ques-ons
Réponse
Supposi-ons
Extra-ondeconnaissances–4A–2016
22/05/16
7
Téléchargement