Analyse de données textuelles [ADT]
Responsable Ghorbel Hatem
MRU TIC / HE-Arc
Profils/Options concerné-e-s Aucun
Contrainte temporelle Indifférent
Capacité minimum 5
Capacité maximum 24
Groupe de site Neuchâtel
Résumé Actuellement, un grand nombre d'applications industrielles et d'interfaces homme-machine (par exemple les interfaces multimodales sur
des plateformes mobiles) se basent sur l'analyse textuelle et le traitement du langage naturel : l'analyse des mots (lexicale) et du sens, la
compréhension et la génération du langage pour une communication plus naturelle et efficace.
D'autre part, l'immense quantité des donnés textuelles non structurés dans les réseaux sociaux et plateformes d'échange et de
discussion incitent les industriels à développer des applications pour analyser les opinions et réaction des personnes sur le web face à
des événements diverses et ainsi cibler leurs actions de marketing et accroître leur vente et production (text analytics).
L'analyse des données textuelles (Text Mining) se base essentiellement d'une part sur les techniques d'apprentissage à base de corpus
et d'autre part sur les méthodes structurelles (grammaires et analyse syntaxique). Les domaines d'application de ces techniques sont:
recherche d'information, développement des moteurs de recherche, filtration des emails (pourriels), systèmes experts, aide à la prise de
décision, commerce en ligne, classification des documents multimédias (images, vidéos, etc.), robotique, traduction automatique, aide à
la rédaction (correction et génération des textes), interface en langage naturel, dialogue homme-machine (commande vocale, serveurs
locaux), etc.
Dans ce cours, il s'agit:
- d'explorer d'abord les techniques d'apprentissage automatique (machine learning) appliquée à ce domaine,
- d'introduire ensuite le thème de l'apprentissage automatique en utilisant les techniques des réseaux bayésiens, chaînes de Markov
cachées et discrimination linéaire et réseaux de neurones artificiels
- de prendre en main des frameworks de recherche d'information à la google tels que Lucene, Solr et elasticsearch,
- d'explorer les outils existants de traitement de langage et développer des mini-projets dans le cadre de l'indexation, la recherche
d'information et la classification des documents, images, emails, messages twitter.
-prednre en main des framework de Big Data tels que Hadoop Map/Reduce et Spark
A l'issue de ce cours, les étudiants seront capables de:
- Distinguer entre les différents niveaux de traitement des données textuelles
- Évaluer la complexité des différentes tâches de traitement des données textuelles
- Choisir et appliquer les méthodes adéquates pour une tâche de traitement de données textuelles
- Maîtriser les techniques d'apprentissage automatique et savoir construire les corpus de test et d'entrainement,
- Maîtriser le développement et l'utilisation les techniques de calcul de similitude, d'indexation et de classification,
- Comprendre la difficulté de l'analyse sémantique et appliquer des heuristiques pour les résoudre.
[TIC / HE-Arc] Analyse de données textuelles - généré le 24.05.2017 à 0:40 Page 1
Analyse de données textuelles [ADT]
Contenu Sujet Temps [%]
Introduction au traitement de langage (niveau lexical, syntaxique, sémantique et pragmatique,
approches et techniques, parcours des outils existants) 10
Recherche d'information et framework Lucene / solr / elasticsearch(principe et application: moteur de
recherche et principe tf-idf) 20
Classification automatique (clustering k-means et hiérarchique) cas pratique classification d'une base
d'entreprises. 20
Apprentissage supervisé (chaîne de Markov cachée et algorithme de Viterbi, cas pratique Keyboard
Swype d'Androïd) 15
Apprentissage supervisé(réseau bayésien) cas pratique: classification des documents 15
Apprentissage supervisé(discrimination linéaire, SVM, perceptron et réseaux de neurones) cas
pratique classification des tweets. 15
Analyse sémantique et exploration des ressources linguistiques (WordNet et dictionnaires
linguistiques) 5
Connaissances préalables Programmation Orientée Objet (Java)
La maîtrise de Python est un atout
Modules pré-requis Aucun
MAs exclusifs Aucun
Méthodes d'enseignement Mode Périodes d'enseignement Volume de travail (en heures)
Exposés 28 60
Exercices 0 0
Travaux pratiques 14 30
TOTAL 42 90
Crédits ECTS 3
Évaluation (2017-2018) Examen oral : 60%
Contrôle(s) continu(s) / projet(s) : 40%
Langues Français Allemand Anglais Italien
Enseignement X
Documentation X
Questions d'examen X
[TIC / HE-Arc] Analyse de données textuelles - généré le 24.05.2017 à 0:40 Page 2
Analyse de données textuelles [ADT]
Compétences visées Gérer le projet 15%
Gérer l'avancement technique
Gérer les coûts et les délais
Gérer la communication
Gérer les risques et les imprévus
Stimuler l'équipe
Analyser et spécifier des produits / services 30%
Analyser le système (pluridisciplinarité)
Décomposer le système
Spécifier le système, y compris concept
Evaluer les risques
Planifier
Développer et réaliser 35%
Analyser et spécifier en détail
Concevoir
Intégrer (d'autres composants ou produits)
Modéliser / simuler
Mesurer / tester / caractériser
Documenter (rapport) 20%
Analyser / critiquer
Proposer les améliorations
Tirer les leçons / apprendre
Documenter
Disséminer
[TIC / HE-Arc] Analyse de données textuelles - généré le 24.05.2017 à 0:40 Page 3
1 / 3 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !