Exposé "le Tal"

publicité
TAL
TRAITEMENT
AUTOMATIQUE DU
LANGAGE.
1
Table des matières
1. DEFINITION
2. FONCTIONNEMENT D’UN SYSTEME DE T.A.L.
2.1. Analyse morpho-lexicale
2.2. Analyse syntaxique
2.3. Analyse sémantique
2.4. Analyse pragmatique
3. BASES DE CONNAISSANCES
4. OUTILS T.A.L.
5. CONCLUSION
6. BIBLIOGRAPHIE
2
1. DEFINITION
Certains parlent de traitement du langage naturel (T.L.N.), d’autres de
traitement automatique du langage naturel (T.A.L.N.) pour désigner
l’ensemble des techniques qui permettent le traitement automatique ou
quasi-automatique de l'information textuelle à l'aide de moyens
informatiques.
Nous avons choisi d’utiliser le terme de traitement automatique du
langage (T.A.L.) car l’information textuelle est généralement exprimée
dans le langage courant qui est par définition naturel.
Les premières recherches concernant le T.A.L. visaient à créer un modèle
unique, capable de formaliser la compréhension du langage dans sa
globalité. Cette approche, initiée par Chomsky, s’est vite avérée difficile à
mettre en œuvre.
A l’heure actuelle, les systèmes de T.A.L. utilisent une approche à base de
corpus, certes moins ambitieuse mais beaucoup plus pragmatique. Celle-ci
consiste à utiliser un corpus de documents représentatifs du domaine à
modéliser que le système va utiliser pour obtenir une couverture du
langage suffisante pour que le système de T.A.L. donne des résultats de
bonnes qualités.
3
2. FONCTIONNEMENT D’UN SYSTEME DE T.A.L.
Pour pouvoir présenter d’une manière claire les techniques de T.A.L., nous
allons adopter une vision très théorique qui décompose l’analyse d’un
texte en quatre étapes successives d’analyse :
L’analyse morpho lexicale, qui se préoccupe de la structure des mots ;
L’analyse syntaxique, dédiée à l’analyse de la structure des phrases ;
L’analyse sémantique, qui s’intéresse au sens des phrases considérées
individuellement ;
L’analyse pragmatique, qui s’attache à remettre un contexte autour des
phrases.
(cf schéma page 5)
Dans la pratique, un texte n’est pas soumis à l’analyse successive de
différents modules, chacun traitant une caractéristique spécifique du
langage. Ces différents niveaux d’analyse interagissent dynamiquement
au cours du traitement d’un document écrit. Cette distinction entre les
caractéristiques du langage n’a donc qu’un intérêt pédagogique.
De plus, certains outils se consacrent à l’analyse de la structure des
phrases alors que d’autres tentent de comprendre les textes à partir du
sens des mots. De tels systèmes, basés sur l’analyse sémantique,
s’intéressent à la signification des mots plutôt qu’à leur rôle syntaxique.
4
Le
Analyse morpho
lexicale.
Roi
Est
Contexte
Mort
sens
Base de
connaissances
Analyse
syntaxique.
Analyse
pragmatique.
SENS
Analyse
sémantique.
5
2.1. Analyse morpho-lexicale
L’analyse morpho-lexicale a pour objectif d’identifier les mots du texte
(simples, composés, noms propres, abréviations) et leurs traits (genre et
nombre). L’analyse morpho-lexicale se décompose en trois étapes :
- la segmentation, dont le but est de découper le texte en phrases puis en
mots distincts.
- la lemmatisation, qui s’attache à déterminer la forme canonique des
mots isolés dans l’étape précédente.
- l’étiquetage, dont l’objectif est d’identifier la bonne catégorie morphosyntaxique (verbe, nom…) des mots selon le contexte.
Cette dernière étape est très importante car elle conditionne
l’interprétation du texte. Elle est également très délicate. En effet, il est
parfois difficile d’attribuer une catégorie à un mot. Prenons l’exemple de
l’expression « le parler vrai » ; doit-on étiqueter « parler » comme un
verbe ou comme un nom ?
2.2. Analyse syntaxique
Une fois les mots identifiés, on s’intéresse à la structure syntaxique des
phrases. On s’attache donc à fournir les analyses plausibles des phrases et
ceci en corrélation avec une grammaire qui spécifie les structures
autorisées du langage.
Il existe de nombreux modèles grammaticaux complexes et élaborés,
mais certaines formes grammaticales comme les ellipses ou encore les
anaphores sont difficilement reconnues par les grammaires actuelles.
2.3. Analyse sémantique
Il faut maintenant donner un sens aux phrases du texte. Cette étape
s’appelle l’analyse sémantique.
Celle-ci va considérer les phrases de manière isolées pour tenter
d’identifier leur sens hors contexte.
Pour déterminer le sens d’une phrase, une première étape va se
préoccuper du sens de chacun des mots constituants la phrase. Ensuite, à
l’aide des informations fournies par l’analyse syntaxique, le sens complet
6
de la phrase pourra être déduit grâce à la connaissance des relations
existantes entre les mots.
2.4. Analyse pragmatique
A ce stade, il convient d’intégrer le sens littéral de chaque phrase dans
son contexte, c’est l’étape traitant de la pragmatique.
Pour la bonne compréhension d’un texte, un lecteur a besoin de connaître
un certain nombre d’éléments qui ne sont pas exprimés explicitement
dans le texte : connaissances relatives à la culture générale, au sujet
abordé, etc.
C’est la part implicite du langage. L’enchaînement des étapes précédentes
conduit parfois à des ambiguïtés qu’il est possible de supprimer en
utilisant l’analyse pragmatique de manière dynamique.
3. BASES DE CONNAISSANCES
Tous les systèmes de T.A.L. reposent sur des bases de connaissances que
l’on nomme abusivement lexiques ou dictionnaires.
En règle générale, une base de connaissances peut contenir les
informations morpho-lexicales (lexique, dictionnaire), syntaxiques,
sémantique (thesaurus) et parfois même conceptuelle (réseaux
sémantiques). Cette base de connaissances est le centre nerveux d’une
application de T.A.L. puisque tous les modules font appels aux
informations qui y sont contenues.
Pour plus d’informations concernant les méthodes de construction d’un
système de T.A.L. et les différentes bases de connaissances pouvant être
utilisées, le lecteur se reportera à l’ouvrage « Gestion des connaissances,
outils et applications du knowledge management ».
7
4. OUTILS T.A.L.
Quels outils, pour quoi faire ?
Les outils sont le résultat d'un projet initial, d'une certaine conception
méthodologique, mais aussi des utilisations qu'en font les
expérimentateurs. La présente rubrique fait un premier bilan de la
Question à travers:
Quelques applications et expériences menées au moyen de différents
outils.
Des outils disponibles
Outils de Traitement Automatique des Langues
On recense plusieurs outils disponibles en ligne, susceptibles de participer à l’analyse du
corpus ; notons que la plupart de ces programmes ont été conçus en vue de valider une ou
plusieurs théories linguistiques particulières.

Statistique textuelle et cooccurrences
Alceste
Inspirée du courant de l’analyse des données de Benzécri, la
méthodologie ALCESTE (Analyse des Lexèmes Co-occurrents dans les
Enoncés Simples d’un Texte) a été mise au point par Max Reinert (19831993). Plus qu’une comparaison des distributions statistiques des mots
dans différents corpus, Reinert préconise l’étude de la structure formelle
de leurs cooccurrences dans les énoncés d’un corpus donné. De manière
générale, ALCESTE permet d’identifier des univers de discours ou des
classes d’énoncés, interprétés en fonction de la nature du corpus et des
objectifs de l’analyse.
Les textes sont découpés en segments de taille homogène, appelés
Unités de Contexte Elémentaires ou UCE, de longueur variable. Chaque
texte est appréhendé comme un ensemble d’unités, et chaque unité est
décrite par les mots qu’elle contient (à l’exclusion des mots
grammaticaux). On obtient ainsi une matrice binaire, comprenant des 1 si
le mot apparaît dans l’UCE, et des 0 dans le cas contraire. L’objectif est de
construire sur la base de cette matrice une typologie des segments de
textes, ce qui est mis en œuvre à partir d’un processus de classement
itératif. Chaque UCE appartient à une classe, et les typologies obtenues
sont ensuite comparées ; seules sont conservées les classes les plus
stables.
8

Etiqueteurs, évaluateurs sémantiques
Cordial 7 analyseur
Synapse developpement, Toulouse
Correcteur orthographique et grammatical. La version « Cordial
Analyseur » permet à la fois un étiquetage des textes et un traitement
statistique des textes étiquetés. L’étiquetage est très complet et le
programme reconnaît 201 types grammaticaux, les lemmes et les
fonctions grammaticales des mots, ainsi que différentes informations
sémantiques. Le traitement statistique reprend l’ensemble de ces
informations. Les deux fonctionnalités sont paramétrables et le moteur est
extrêmement rapide (moins d’une seconde par Ko). Il est également
possible de comparer les résultats obtenus sur un texte à l’ensemble du
corpus dont Cordial dispose, composé de 2541 ouvrages ; en ce qui
concerne notre problématique, cette fonction s’avère inutilisable. De fait,
l’ensemble du corpus est à dominante littéraire et l’on ne relève que 46
textes de genre scientifique, dont 3 linguistiques, ce qui limite, voire
interdit toute possibilité de catégorisation du texte. Cordial s’avère être un
outil efficace pour l’étude des genres, ce qui a été démontré par les
travaux de François Rastier, Denise Malrieu, et Thomas Beauvisage
(2001). Il n’existe cependant pas de version bilingue du correcteur, et les
étiquettes devront être adaptées. La version Cordial Analyseur 8.1. a été
acquise récemment.
Gram
Gram est un analyseur syntaxique développé uniquement dans un but
pédagogique, pour la filière TAL des sciences du langage à Aix-enProvence.
Il est basé sur une analyse descendante avec allers-retours, ce qui permet
à l'étudiant de voir le fonctionnement règle par règle, mais n'est pas
efficace pour des applications importantes.
9
5. CONCLUSION
A l’heure actuelle, les outils de T.A.L. traitent correctement les textes
jusqu’au niveau syntaxique. Malheureusement dès qu’il s’agit d’interpréter
automatiquement un document et donc de procéder à une analyse au
niveau sémantique et pragmatique, ces outils sont beaucoup moins
performants.
Cet état de fait n’est pas tellement surprenant dans la mesure où la
plupart des applications industrielles se préoccupent de la syntaxe et très
peu de la sémantique.
Cependant, depuis un certain temps la situation a tendance à s’inverser et
il est apparu sur le marché de nombreux outils traitant du sens des textes.
Il faut toutefois constater qu’ils en sont encore au stade de recherche et
développement, même s’ils permettent d’obtenir dans certaines conditions
des résultats intéressants.
Il faut rester pragmatique et comprendre que ces outils permettent de
traiter automatiquement des tâches relativement simples et sans valeur
ajoutée.
Ils ne sont en aucun cas capables de remplacer l’homme qui a un pouvoir
d’abstraction et de modélisation encore largement supérieur à celui de la
machine.
6. BIBLIOGRAPHIE
http://www.up.univ-mrs.fr/~veronis/logiciels/Gram/index.html
http://www.revue-texto.net/Corpus/manufacture/trousse/pub/TAL.doc
http://www.atala.org/
http://www.cavi.univ-paris3.fr/ilpga/ilpga/
http://www.latl.unige.ch/
10
Téléchargement