Analyse de données textuelles [ADT]
Responsable Ghorbel Hatem
MRU TIC / HE-Arc
Profils/Options concerné-e-s Aucun
Contrainte temporelle Indifférent
Capacité minimum 5
Capacité maximum 24
Groupe de site Neuchâtel
Résumé Actuellement, un grand nombre d'applications industrielles et d'interfaces homme-machine (par exemple les interfaces multimodales sur
des plateformes mobiles) se basent sur l'analyse textuelle et le traitement du langage naturel : l'analyse des mots (lexicale) et du sens, la
compréhension et la génération du langage pour une communication plus naturelle et efficace.
D'autre part, l'immense quantité des donnés textuelles non structurés dans les réseaux sociaux et plateformes d'échange et de
discussion incitent les industriels à développer des applications pour analyser les opinions et réaction des personnes sur le web face à
des événements diverses et ainsi cibler leurs actions de marketing et accroître leur vente et production (text analytics).
L'analyse des données textuelles (Text Mining) se base essentiellement d'une part sur les techniques d'apprentissage à base de corpus
et d'autre part sur les méthodes structurelles (grammaires et analyse syntaxique). Les domaines d'application de ces techniques sont:
recherche d'information, développement des moteurs de recherche, filtration des emails (pourriels), systèmes experts, aide à la prise de
décision, commerce en ligne, classification des documents multimédias (images, vidéos, etc.), robotique, traduction automatique, aide à
la rédaction (correction et génération des textes), interface en langage naturel, dialogue homme-machine (commande vocale, serveurs
locaux), etc.
Dans ce cours, il s'agit:
- d'explorer d'abord les techniques d'apprentissage automatique (machine learning) appliquée à ce domaine,
- d'introduire ensuite le thème de l'apprentissage automatique en utilisant les techniques des réseaux bayésiens, chaînes de Markov
cachées et discrimination linéaire et réseaux de neurones artificiels
- de prendre en main des frameworks de recherche d'information à la google tels que Lucene, Solr et elasticsearch,
- d'explorer les outils existants de traitement de langage et développer des mini-projets dans le cadre de l'indexation, la recherche
d'information et la classification des documents, images, emails, messages twitter.
-prednre en main des framework de Big Data tels que Hadoop Map/Reduce et Spark
A l'issue de ce cours, les étudiants seront capables de:
- Distinguer entre les différents niveaux de traitement des données textuelles
- Évaluer la complexité des différentes tâches de traitement des données textuelles
- Choisir et appliquer les méthodes adéquates pour une tâche de traitement de données textuelles
- Maîtriser les techniques d'apprentissage automatique et savoir construire les corpus de test et d'entrainement,
- Maîtriser le développement et l'utilisation les techniques de calcul de similitude, d'indexation et de classification,
- Comprendre la difficulté de l'analyse sémantique et appliquer des heuristiques pour les résoudre.
[TIC / HE-Arc] Analyse de données textuelles - généré le 24.05.2017 à 0:40 Page 1