Module d`approfondissement : Analyse de données textuelles [ADT]

publicité
Analyse de données textuelles [ADT]
Responsable
Ghorbel Hatem
MRU
TIC / HE-Arc
Profils/Options concerné-e-s
Aucun
Contrainte temporelle
Indifférent
Capacité minimum
5
Capacité maximum
24
Groupe de site
Neuchâtel
Résumé
Actuellement, un grand nombre d'applications industrielles et d'interfaces homme-machine (par exemple les interfaces multimodales sur
des plateformes mobiles) se basent sur l'analyse textuelle et le traitement du langage naturel : l'analyse des mots (lexicale) et du sens, la
compréhension et la génération du langage pour une communication plus naturelle et efficace.
D'autre part, l'immense quantité des donnés textuelles non structurés dans les réseaux sociaux et plateformes d'échange et de
discussion incitent les industriels à développer des applications pour analyser les opinions et réaction des personnes sur le web face à
des événements diverses et ainsi cibler leurs actions de marketing et accroître leur vente et production (text analytics).
L'analyse des données textuelles (Text Mining) se base essentiellement d'une part sur les techniques d'apprentissage à base de corpus
et d'autre part sur les méthodes structurelles (grammaires et analyse syntaxique). Les domaines d'application de ces techniques sont:
recherche d'information, développement des moteurs de recherche, filtration des emails (pourriels), systèmes experts, aide à la prise de
décision, commerce en ligne, classification des documents multimédias (images, vidéos, etc.), robotique, traduction automatique, aide à
la rédaction (correction et génération des textes), interface en langage naturel, dialogue homme-machine (commande vocale, serveurs
locaux), etc.
Dans ce cours, il s'agit:
- d'explorer d'abord les techniques d'apprentissage automatique (machine learning) appliquée à ce domaine,
- d'introduire ensuite le thème de l'apprentissage automatique en utilisant les techniques des réseaux bayésiens, chaînes de Markov
cachées et discrimination linéaire et réseaux de neurones artificiels
- de prendre en main des frameworks de recherche d'information à la google tels que Lucene, Solr et elasticsearch,
- d'explorer les outils existants de traitement de langage et développer des mini-projets dans le cadre de l'indexation, la recherche
d'information et la classification des documents, images, emails, messages twitter.
-prednre en main des framework de Big Data tels que Hadoop Map/Reduce et Spark
A l'issue de ce cours, les étudiants seront capables de:
- Distinguer entre les différents niveaux de traitement des données textuelles
- Évaluer la complexité des différentes tâches de traitement des données textuelles
- Choisir et appliquer les méthodes adéquates pour une tâche de traitement de données textuelles
- Maîtriser les techniques d'apprentissage automatique et savoir construire les corpus de test et d'entrainement,
- Maîtriser le développement et l'utilisation les techniques de calcul de similitude, d'indexation et de classification,
- Comprendre la difficulté de l'analyse sémantique et appliquer des heuristiques pour les résoudre.
[TIC / HE-Arc] Analyse de données textuelles - généré le 24.05.2017 à 0:40
Page 1
Analyse de données textuelles [ADT]
Contenu
Sujet
Temps [%]
Introduction au traitement de langage (niveau lexical, syntaxique, sémantique et pragmatique,
10
approches et techniques, parcours des outils existants)
Recherche d'information et framework Lucene / solr / elasticsearch(principe et application: moteur de
20
recherche et principe tf-idf)
Classification automatique (clustering k-means et hiérarchique) cas pratique classification d'une base
20
d'entreprises.
Apprentissage supervisé (chaîne de Markov cachée et algorithme de Viterbi, cas pratique Keyboard
15
Swype d'Androïd)
Apprentissage supervisé(réseau bayésien) cas pratique: classification des documents
15
Apprentissage supervisé(discrimination linéaire, SVM, perceptron et réseaux de neurones) cas
15
pratique classification des tweets.
Analyse sémantique et exploration des ressources linguistiques (WordNet et dictionnaires
5
linguistiques)
Connaissances préalables
Programmation Orientée Objet (Java)
La maîtrise de Python est un atout
Modules pré-requis
Aucun
MAs exclusifs
Aucun
Méthodes d'enseignement
Mode
Exposés
Exercices
Périodes d'enseignement
Volume de travail (en heures)
28
60
0
0
Travaux pratiques
14
30
TOTAL
42
90
Crédits ECTS
Évaluation (2017-2018)
3
Examen oral : 60%
Contrôle(s) continu(s) / projet(s) : 40%
Langues
Français
Enseignement
X
Documentation
X
Questions d'examen
X
[TIC / HE-Arc] Analyse de données textuelles - généré le 24.05.2017 à 0:40
Allemand
Anglais
Italien
Page 2
Analyse de données textuelles [ADT]
Compétences visées
Gérer le projet
15%
Gérer l'avancement technique
Gérer les coûts et les délais
Gérer la communication
Gérer les risques et les imprévus
Stimuler l'équipe
Analyser et spécifier des produits / services
30%
Analyser le système (pluridisciplinarité)
Décomposer le système
Spécifier le système, y compris concept
Evaluer les risques
Planifier
Développer et réaliser
35%
Analyser et spécifier en détail
Concevoir
Intégrer (d'autres composants ou produits)
Modéliser / simuler
Mesurer / tester / caractériser
Documenter (rapport)
20%
Analyser / critiquer
Proposer les améliorations
Tirer les leçons / apprendre
Documenter
Disséminer
[TIC / HE-Arc] Analyse de données textuelles - généré le 24.05.2017 à 0:40
Page 3
Téléchargement