Introduction

publicité
Informatique 3
Méthodes Empiriques en Linguistique Informatique
Paola MERLO
Année académique 2004-2005
Semestre d’hiver
1
Objectifs du cours
•Apprentissage
de UNIX/LINUX et
du langage de programmation Perl
•Introduction à l'utilisation d'un corpus
•Introduction aux méthodes d'apprentissage automatique et
statistique en TALN
2
Évaluation
Attestation
- éxecution et présentation d'un projet TALN en LINUX/Perl
Examen écrit (étudiant(e)s de licence, Lettres et Sciences)
- attestation requise avant l’examen pour se présenter à l’examen
- théorique et pratique: il faut 4 dans les deux parties pour passer
N.B. Les étudiants qui seraient intéressé-e-s à faire le mémoire avec
moi doivent avoir obtenu au moins 5 à l’examen.
3
Enseignants
•Cours
Paola MERLO
•TP
Paola MERLO
Horaires
Gabriel MUSILLO
•Cours
Mercredi 12-14 h
•TP
Mercredi 14-16 h
Réception Mardi 13 -14h
Réception Jeudi 12-13 h
Salles
•Cours
L208
•TP
B319
4
Conditions d’admission
• Sont admis au cours les étudiants de 2e cycle en Lettres
(branche A et B) et les étudiants de 2e cycle de la faculté des
Sciences.
• Ceci n'est pas un cours d'introduction à la programmation.
Si vous n'avez pas de bonnes bases en programmation
structurée, vous ne pouvez pas suivre ce cours.
• Les auditeurs doivent obtenir ma permission pour assister au
cours.
5
Supports du cours
• Transparents (sur la page web:
http://www.latl.unige.ch/informatique3/index.html)
• Polycopiés (parfois)
• Vos notes
• Un choix énorme de tutoriels et cours sur le Web
6
Bibliographie
Perl
Larry Wall et Randal Schwartz, Programming Perl, O'Reilly Associates
Ellie Quigley, Perl by example, Prentice Hall
Jeffrey Friedl, Mastering Regular Expression, O'Reilly Associates
Approche Corpus
Benoît Habert, Adeline Nazarenko, et André Salem,
Les linguistiques de corpus, Armand Colin
Tony Mc Enery et Andrew Wilson, Corpus Lingusitics, Edinburgh Press
Méthodes empiriques et statistiques
Christopher Manning et Hinrich Schuetze, Foundations of Statistical
Natural Language Processing, MIT Press
Daniel Jurafsky et James Martin, Speech and Language Processing,
Prentice Hall
7
Bibliographie sur le web (en francais)
Cours Perl
http://www.med.univ-rennes1.fr/~poulique/cours/perl/
Cours sans exercices, avec quelques exemples. Assez clair.
http://www.cavi.univ-paris3.fr/ilpga/ilpga/tal/perl/index.htm
Avec des exercices. Niveau très basique.
http://www.ftls.org/fr/initiation/perl/
Avec quelques exercices et des exemples. Assez clair.
Documentation Perl http://www.enstimac.fr/Perl/ (en français, mais pas complet)
http://Perldoc.com (référence officielle en anglais, complète et à jour)
Cours Perl et Unix http://www.esil.univ-mrs.fr/~dgaut/Cours/sommaire-unixperl.html
Très basique. Avec des exercices.
Cours avancé Unix http://www.iie.cnam.fr/~Berthelot/Tfse/unix_trsp/unix_trsp1.html
Pas d’exercices ni d’exemples. Assez clair.
8
Programme détaillé du cours
Introduction: le TALN, les approches basées sur les corpus,
quelques exemples des problèmes et solutions avec ces
approches.
Méthodes quantitatives: données qualitatives et quantitatives.
La notion de distribution de fréquence, la distinction entre type et
token, la loi de Zipf, les n-grammes.
Données textuelles: qu'est-ce qu'un corpus, corpus balisé,
exemples de corpus textuels: la Penn Treebank, le British
National Corpus, le NEGR@ corpus.
9
Programme détaillé du cours
Perl, un langage de programmation pour les données
textuelles:
Les bases: variables, structures de données, gestion du contrôle.
Les expressions rationnelles (régulières): théorie et pratique.
Les tableaux associatifs (Hash Tables).
Les données textuelles comme base pour l'évaluation: les
mesures de précision, de rappel et d’exactitude.
10
Programme détaillé du cours
Introduction à l'apprentissage automatique: l'approche
d'apprentissage automatique aux problèmes de TALN. Les
méthodes d'apprentissage symbolique: les arbres de décisions.
L'apprentissage du lexique: la classification automatique des
verbes en classes sémantiques.
11
Programme détaillé du cours
Introduction à la théorie des probabilités: probabilité simple et
probabilité conditionnelle; le théorème de Bayes; variables
aléatoires et fonctions de probabilité.
Modèle probabiliste pour L'apprentissage automatique :
applications au TALN
•L'apprentissage automatique des rôles thématiques.
•Désambiguïsation des classes des verbes.
•Désambiguïsation des mots.
12
Le Traitement du Langage Naturel
•Le TALN
•Les approches basées sur les corpus
•Quelques exemples de problèmes et solutions
13
Le Traitement du Langage Naturel
Qu'estce que l'analyse du langage naturel ?
L'analyse du langage naturel tente de donner à un
ordinateur la faculté de comprendre des langues
naturelles comme l'anglais, le français ou le japonais.
Par « comprendre », nous ne voulons pas faire croire
que l'ordinateur acquiert un mode de pensée, des
sensations et des connaissances humaines. Nous
voulons seulement dire que l'ordinateur peut reconnaître
et utiliser des informations exprimées à l'aide d'une
langue naturelle.
14
Applications du TALN
•L'anglais comme langage de commande -- c'estàdire l'usage
d'une langue naturelle en lieu et place d'un langage artificiel
comme c'est encore le cas dans les langages de commande des
ordinateurs.
•Les banques de données et les environnements d'aide peuvent
accepter des requêtes en anglais.
•La traduction assistée par ordinateur de documents scientifiques
et techniques ou bien d'informations commerciales d'une langue
naturelle vers une autre.
•La génération automatique de banques de données à partir de
documents techniques, tels que des rapports de pannes ou des
rapports médicaux.
15
Applications du TALN
•Aide à la Rédaction
correction des textes
génération de textes
•Recherche documentaire
•Filtrage/classification d'information
•Résumé automatique, pour un seul document, pour plusieurs
documents sur le même sujet
16
Le Langage Naturel
•Les langages formels (programmation, mathématique) sont par
définition explicites et non ambigus.
•Les langages naturels sont par contre implicites et ambigus.
Implicite
Enlevez les noyaux des cerises et mettez les sur la tarte.
Le voisin a caressé le chat; ma femme aussi.
Ambigu
La belle brise la glace.
Les experts ont analysé la croissance de la consommation.
Les experts ont dissocié la croissance de la consommation.
17
Les Fonctions du Langage Naturel
•Les langages naturels ont une fonction de communication.
Concision
L'étudiant a remis sa copie au professeur qui lui a dit qu'elle aurait pu être mieux.
L'étudiant a remis la copie de l'étudiant au professeur. Le professeur a dit à
l'étudiant que la copie de l'étudiant aurait pu être mieux.
Connaissances Partagées
Peux-tu descendre un avocat?
Un de ceux achetés ce matin?
Des ennuis?
Oui, c'est pour midi.
Mmm,passons. Alors, combien?
18
Les Fonctions du Langage Naturel
•Les langages naturels ont une fonction de représentation.
Pouvoir expressif non-limité
N'importe quel niveau logique
La terre est ronde.
Tous les hommes sont des machos.
Tous ce qui est trop vite fait est bâclé.
Même incompréhensible
En suivant la logique de la polarité antagoniste, nous dirons que nous entrons
dans une sorte d'état T où une mi-actualisation et une mi-potentialisation
imaginaire/rationnel-réel tendent vers un équilibre dynamique.
19
Les Propriétés des Applications TAL
•Deux grands contextes d'application correspondant aux deux
fonctions essentielles du langage

Outils de communication application dans le domaine des interfaces
Une contrainte importante d'application est ici le traitement en temps réel
(max. 300ms/mot)

Formalisme de représentation des connaissances
Applications dans le domaine de la recherche d'information
Performance encore faibles
On compense avec la capacité de traiter de volumes importants de données
(10K documents par jour)
20
Les Propriétés des Applications TAL
Les principales contraintes imposées par les contextes d'application
sont donc:
Traitement rapide

Cela nécessite des algorithmes de complexité
polynomiale.
Systèmes permettant une bonne couverture de la langue
considérée

Cela nécessite des ressources linguistiques
représentatives en quantité suffisante.
21
L’approche à base de corpus
Les ressources linguistiques représentatives en quantité suffisante
sont très difficiles et chères à construire.
On ne cherche plus à reproduire la compétence à l'aide de modèles
formalisant notre compréhension du langage mais à reproduire,
pour une classe d'applications TAL donnée,
la performance linguistique associée,
et ce, à l'aide de modèles automatiquement extraits de volumes
importants de données textuelles caractéristiques de la classe
d'application envisagée.
22
L’approche à base de corpus
Validation
Modèle
Expert
Données
textuelles
Données
textuelles
Système réalisant
l'application TAL
envisagée
Résultats
Données
textuelles
CORPUS TEXTUEL
La validation des modèles obtenus n'est pas liée à leur capacité
explicative du fonctionnement de la langue mais repose sur
l'évaluation de l'amélioration des performances que permettent
ces modèles pour l'application TALN envisagée
23
Exemple: Attachement du SP
Je mange la pizza avec un couteau.
Je mange la pizza avec le fromage.
Avant: modélisation des connaissances linguistiques et extralinguistiques nécessaires à enlever l'ambiguïté.
Par exemple, sémantique du verbe et du syntagme prépositionnel
(SP):
verbe d'action ou verbe d'état?
SP instrumental ou de manière? ou spécification?
Connaissance du monde: est-ce qu'on mange du couteau et on
coupe avec du fromage?
24
Exemple: Attachement du SP
Je mange la pizza avec un couteau.
Je mange la pizza avec le fromage.
Méthode à l'aide de corpus
P(mange, avec, couteau) vs. P(pizza, avec, couteau)
P(mange, avec, fromage) vs. P(pizza, avec, fromage)
25
Avantages
•Acquisition: identification et encodage automatique des
connaissances nécessaires.
•Couverture: on couvre automatiquement tous les phénomènes
linguistiques dans le domaine d'application donné.
•Robustesse: on s'adapte facilement au bruit et aux données
imprévues.
•Portabilité: en principe, assez facile à étendre vers une nouvelle
langue.
•Évaluation: on arrive à évaluer de façon expérimentale des
systèmes pratiques et des hypothèses scientifiques.
26
Résumé du cours
•Le TALN tente de donner à un ordinateur la faculté de « comprendre »
les langues naturelles (anglais, français, etc.)
•Ses applications sont l'interfaçage avec les grandes bases des données,
la traduction automatique ou assistée, la génération automatique des
documents, la recherche et le filtrage documentaire, le résumé
automatique, …
•Propriétés des LN: ambiguës et implicites
•Fonctions des LN: communication et représentation
•Approche corpus:
ressources linguistiques en grande quantité
acquisition automatique de connaissances langagières
accent sur la performance et l'évaluation systématique
27
Téléchargement