Analyse de données textuelles [ADT] Responsable Ghorbel Hatem MRU TIC / HE-Arc Profils/Options concerné-e-s Aucun Contrainte temporelle Indifférent Capacité minimum 5 Capacité maximum 24 Groupe de site Neuchâtel Résumé Actuellement, un grand nombre d'applications industrielles et d'interfaces homme-machine (par exemple les interfaces multimodales sur des plateformes mobiles) se basent sur l'analyse textuelle et le traitement du langage naturel : l'analyse des mots (lexicale) et du sens, la compréhension et la génération du langage pour une communication plus naturelle et efficace. D'autre part, l'immense quantité des donnés textuelles non structurés dans les réseaux sociaux et plateformes d'échange et de discussion incitent les industriels à développer des applications pour analyser les opinions et réaction des personnes sur le web face à des événements diverses et ainsi cibler leurs actions de marketing et accroître leur vente et production (text analytics). L'analyse des données textuelles (Text Mining) se base essentiellement d'une part sur les techniques d'apprentissage à base de corpus et d'autre part sur les méthodes structurelles (grammaires et analyse syntaxique). Les domaines d'application de ces techniques sont: recherche d'information, développement des moteurs de recherche, filtration des emails (pourriels), systèmes experts, aide à la prise de décision, commerce en ligne, classification des documents multimédias (images, vidéos, etc.), robotique, traduction automatique, aide à la rédaction (correction et génération des textes), interface en langage naturel, dialogue homme-machine (commande vocale, serveurs locaux), etc. Dans ce cours, il s'agit: - d'explorer d'abord les techniques d'apprentissage automatique (machine learning) appliquée à ce domaine, - d'introduire ensuite le thème de l'apprentissage automatique en utilisant les techniques des réseaux bayésiens, chaînes de Markov cachées et discrimination linéaire et réseaux de neurones artificiels - de prendre en main des frameworks de recherche d'information à la google tels que Lucene, Solr et elasticsearch, - d'explorer les outils existants de traitement de langage et développer des mini-projets dans le cadre de l'indexation, la recherche d'information et la classification des documents, images, emails, messages twitter. -prednre en main des framework de Big Data tels que Hadoop Map/Reduce et Spark A l'issue de ce cours, les étudiants seront capables de: - Distinguer entre les différents niveaux de traitement des données textuelles - Évaluer la complexité des différentes tâches de traitement des données textuelles - Choisir et appliquer les méthodes adéquates pour une tâche de traitement de données textuelles - Maîtriser les techniques d'apprentissage automatique et savoir construire les corpus de test et d'entrainement, - Maîtriser le développement et l'utilisation les techniques de calcul de similitude, d'indexation et de classification, - Comprendre la difficulté de l'analyse sémantique et appliquer des heuristiques pour les résoudre. [TIC / HE-Arc] Analyse de données textuelles - généré le 24.05.2017 à 0:40 Page 1 Analyse de données textuelles [ADT] Contenu Sujet Temps [%] Introduction au traitement de langage (niveau lexical, syntaxique, sémantique et pragmatique, 10 approches et techniques, parcours des outils existants) Recherche d'information et framework Lucene / solr / elasticsearch(principe et application: moteur de 20 recherche et principe tf-idf) Classification automatique (clustering k-means et hiérarchique) cas pratique classification d'une base 20 d'entreprises. Apprentissage supervisé (chaîne de Markov cachée et algorithme de Viterbi, cas pratique Keyboard 15 Swype d'Androïd) Apprentissage supervisé(réseau bayésien) cas pratique: classification des documents 15 Apprentissage supervisé(discrimination linéaire, SVM, perceptron et réseaux de neurones) cas 15 pratique classification des tweets. Analyse sémantique et exploration des ressources linguistiques (WordNet et dictionnaires 5 linguistiques) Connaissances préalables Programmation Orientée Objet (Java) La maîtrise de Python est un atout Modules pré-requis Aucun MAs exclusifs Aucun Méthodes d'enseignement Mode Exposés Exercices Périodes d'enseignement Volume de travail (en heures) 28 60 0 0 Travaux pratiques 14 30 TOTAL 42 90 Crédits ECTS Évaluation (2017-2018) 3 Examen oral : 60% Contrôle(s) continu(s) / projet(s) : 40% Langues Français Enseignement X Documentation X Questions d'examen X [TIC / HE-Arc] Analyse de données textuelles - généré le 24.05.2017 à 0:40 Allemand Anglais Italien Page 2 Analyse de données textuelles [ADT] Compétences visées Gérer le projet 15% Gérer l'avancement technique Gérer les coûts et les délais Gérer la communication Gérer les risques et les imprévus Stimuler l'équipe Analyser et spécifier des produits / services 30% Analyser le système (pluridisciplinarité) Décomposer le système Spécifier le système, y compris concept Evaluer les risques Planifier Développer et réaliser 35% Analyser et spécifier en détail Concevoir Intégrer (d'autres composants ou produits) Modéliser / simuler Mesurer / tester / caractériser Documenter (rapport) 20% Analyser / critiquer Proposer les améliorations Tirer les leçons / apprendre Documenter Disséminer [TIC / HE-Arc] Analyse de données textuelles - généré le 24.05.2017 à 0:40 Page 3