TAL - Free

publicité
Le Traitement
Automatique des Langues
(TAL)
Jérôme Helmstetter
Nicolas Mastro
Jean-Baptiste Hainzelin
Laurent Gendre
Plan






Le TAL, une discipline jeune
Le TAL aujourd’hui
Méthode d’analyse de texte
Méthode d’analyse de la parole
Liens entre le TAL et la linguistique
Un exemple
Le TAL, une discipline jeune


Seconde guerre mondiale : développement des premiers
Calculateurs.
Début des années 50, guerre froide : début de la traduction
automatique
– Besoins : déchiffrer même approximativement des
documents en russes pour identifier ceux qui doivent
être confier à un traducteur humain.
– Approche de base pour l’automatisation :
• traduction mot à mot
• + règles de réarrangement de l’ordre des mots
– Les problématiques, difficultés, idées et méthodes
essentielles du TAL sont identifiées dès cette époque :
• En particulier : « syntaxe opérationnelle »
Le TAL aujourd’hui




Une discipline autonome…
– qui a pour objectif la réalisation de systèmes informatiques
capables de traiter en entrées des données linguistiques
(mots, phrases, textes)
– qui a ses cursus de formation, ses revues (TAL en France,
Computational Linguistics), sa société savante (ATALA)
… liée à la linguistique et à l’informatique
Principales applications :
– Oral : reconnaissance vocale, dictée vocale
– Écrit : traduction assistée par ordinateur, correction
grammaticale,
recherche d’informations, résumé automatique, …
Composants de base :
– Étiquetage des mots en fonction de leur syntaxe
– Analyse syntaxique
Analyse de texte
L’analyse de texte d’un système de traitement automatique des langues
est décomposé en 5 étapes : Le découpage en mots, l’étiquetage (genre),
reconnaissance de la structure, l’évaluation du sens (traduction) et la mise
en contexte.
Cas de l’étiquetage des noms :
 Affecter à chaque mot d’une phrase sa catégorie grammaticale
(nom, verbe, adjectif, …) sachant que chaque catégorie correspond a
un code dans l’algorithme de programmation.
– Difficulté : l’ambiguïté morphologique
il
la
porte
Pro. Pro. Verbe
il
Pro.
ferme la
porte.
Nom Art. Nom
Analyse de la parole
La Reconnaissance Automatique de la Parole est aussi très importante
dans le TAL et elle peut être décomposé en plusieurs parties :
 Acquisition et numérisation d’un signal sonore
 Extraction des paramètres tel que l’énergie ou encore les coefficients
cepstraux (signal dans le domaine qfréquentiel)
 Paramétrisation de la parole avec la Transformé de Fourier discrète
 Comparaison du signal à l’aide de différents modèles
but : faire correspondre des parties du signal pour trouver des mots
Ainsi, il existe des systèmes de commandes vocales plus ou moins fiables
suivant les méthodes employées et les lexiques associés.
Liens entre le TAL et la
linguistique



Les talistes ont des compétences en informatique et des
compétences en linguistique spécifiques, adaptées à l’activité
de développement de systèmes de TAL
Linguistique -> TAL
– Le TAL sollicite diverses branches des sciences du langage
(morphologie, syntaxe, lexicologie, sémantique, …)
TAL -> linguistique
– Le développement de modèles formels et de systèmes de TAL
génère de nouvelles connaissances pour la description des langues.
– Les outils de TAL et la disponibilité de très grands corpus de textes
permettent de constituer de nouveaux observatoires de langue en
usage, susceptibles de renouveler l’investigation linguistique.
Exemple



Synomia : une PME
– Créée en 2000
– Recherche d’une technologie novatrice : rencontre avec l’ERSS
– Rôle d’un chef de projet en linguistique-informatique
– Une douzaine de personnes aujourd'hui
– Commercialisation active depuis janvier 2000
Des produits
– Produits d'aide à la navigation dans un site web
– Recherche, Index, Référencement, Liens promotionnels
– Un service clé en main, entièrement automatisé
Des clients
– 180 abonnements en France, Grande-Bretagne et US
– 240 000 requêtes/jour
Merci de votre attention
Téléchargement