TAL TRAITEMENT AUTOMATIQUE DU LANGAGE. 1 Table des matières 1. DEFINITION 2. FONCTIONNEMENT D’UN SYSTEME DE T.A.L. 2.1. Analyse morpho-lexicale 2.2. Analyse syntaxique 2.3. Analyse sémantique 2.4. Analyse pragmatique 3. BASES DE CONNAISSANCES 4. OUTILS T.A.L. 5. CONCLUSION 6. BIBLIOGRAPHIE 2 1. DEFINITION Certains parlent de traitement du langage naturel (T.L.N.), d’autres de traitement automatique du langage naturel (T.A.L.N.) pour désigner l’ensemble des techniques qui permettent le traitement automatique ou quasi-automatique de l'information textuelle à l'aide de moyens informatiques. Nous avons choisi d’utiliser le terme de traitement automatique du langage (T.A.L.) car l’information textuelle est généralement exprimée dans le langage courant qui est par définition naturel. Les premières recherches concernant le T.A.L. visaient à créer un modèle unique, capable de formaliser la compréhension du langage dans sa globalité. Cette approche, initiée par Chomsky, s’est vite avérée difficile à mettre en œuvre. A l’heure actuelle, les systèmes de T.A.L. utilisent une approche à base de corpus, certes moins ambitieuse mais beaucoup plus pragmatique. Celle-ci consiste à utiliser un corpus de documents représentatifs du domaine à modéliser que le système va utiliser pour obtenir une couverture du langage suffisante pour que le système de T.A.L. donne des résultats de bonnes qualités. 3 2. FONCTIONNEMENT D’UN SYSTEME DE T.A.L. Pour pouvoir présenter d’une manière claire les techniques de T.A.L., nous allons adopter une vision très théorique qui décompose l’analyse d’un texte en quatre étapes successives d’analyse : L’analyse morpho lexicale, qui se préoccupe de la structure des mots ; L’analyse syntaxique, dédiée à l’analyse de la structure des phrases ; L’analyse sémantique, qui s’intéresse au sens des phrases considérées individuellement ; L’analyse pragmatique, qui s’attache à remettre un contexte autour des phrases. (cf schéma page 5) Dans la pratique, un texte n’est pas soumis à l’analyse successive de différents modules, chacun traitant une caractéristique spécifique du langage. Ces différents niveaux d’analyse interagissent dynamiquement au cours du traitement d’un document écrit. Cette distinction entre les caractéristiques du langage n’a donc qu’un intérêt pédagogique. De plus, certains outils se consacrent à l’analyse de la structure des phrases alors que d’autres tentent de comprendre les textes à partir du sens des mots. De tels systèmes, basés sur l’analyse sémantique, s’intéressent à la signification des mots plutôt qu’à leur rôle syntaxique. 4 Le Analyse morpho lexicale. Roi Est Contexte Mort sens Base de connaissances Analyse syntaxique. Analyse pragmatique. SENS Analyse sémantique. 5 2.1. Analyse morpho-lexicale L’analyse morpho-lexicale a pour objectif d’identifier les mots du texte (simples, composés, noms propres, abréviations) et leurs traits (genre et nombre). L’analyse morpho-lexicale se décompose en trois étapes : - la segmentation, dont le but est de découper le texte en phrases puis en mots distincts. - la lemmatisation, qui s’attache à déterminer la forme canonique des mots isolés dans l’étape précédente. - l’étiquetage, dont l’objectif est d’identifier la bonne catégorie morphosyntaxique (verbe, nom…) des mots selon le contexte. Cette dernière étape est très importante car elle conditionne l’interprétation du texte. Elle est également très délicate. En effet, il est parfois difficile d’attribuer une catégorie à un mot. Prenons l’exemple de l’expression « le parler vrai » ; doit-on étiqueter « parler » comme un verbe ou comme un nom ? 2.2. Analyse syntaxique Une fois les mots identifiés, on s’intéresse à la structure syntaxique des phrases. On s’attache donc à fournir les analyses plausibles des phrases et ceci en corrélation avec une grammaire qui spécifie les structures autorisées du langage. Il existe de nombreux modèles grammaticaux complexes et élaborés, mais certaines formes grammaticales comme les ellipses ou encore les anaphores sont difficilement reconnues par les grammaires actuelles. 2.3. Analyse sémantique Il faut maintenant donner un sens aux phrases du texte. Cette étape s’appelle l’analyse sémantique. Celle-ci va considérer les phrases de manière isolées pour tenter d’identifier leur sens hors contexte. Pour déterminer le sens d’une phrase, une première étape va se préoccuper du sens de chacun des mots constituants la phrase. Ensuite, à l’aide des informations fournies par l’analyse syntaxique, le sens complet 6 de la phrase pourra être déduit grâce à la connaissance des relations existantes entre les mots. 2.4. Analyse pragmatique A ce stade, il convient d’intégrer le sens littéral de chaque phrase dans son contexte, c’est l’étape traitant de la pragmatique. Pour la bonne compréhension d’un texte, un lecteur a besoin de connaître un certain nombre d’éléments qui ne sont pas exprimés explicitement dans le texte : connaissances relatives à la culture générale, au sujet abordé, etc. C’est la part implicite du langage. L’enchaînement des étapes précédentes conduit parfois à des ambiguïtés qu’il est possible de supprimer en utilisant l’analyse pragmatique de manière dynamique. 3. BASES DE CONNAISSANCES Tous les systèmes de T.A.L. reposent sur des bases de connaissances que l’on nomme abusivement lexiques ou dictionnaires. En règle générale, une base de connaissances peut contenir les informations morpho-lexicales (lexique, dictionnaire), syntaxiques, sémantique (thesaurus) et parfois même conceptuelle (réseaux sémantiques). Cette base de connaissances est le centre nerveux d’une application de T.A.L. puisque tous les modules font appels aux informations qui y sont contenues. Pour plus d’informations concernant les méthodes de construction d’un système de T.A.L. et les différentes bases de connaissances pouvant être utilisées, le lecteur se reportera à l’ouvrage « Gestion des connaissances, outils et applications du knowledge management ». 7 4. OUTILS T.A.L. Quels outils, pour quoi faire ? Les outils sont le résultat d'un projet initial, d'une certaine conception méthodologique, mais aussi des utilisations qu'en font les expérimentateurs. La présente rubrique fait un premier bilan de la Question à travers: Quelques applications et expériences menées au moyen de différents outils. Des outils disponibles Outils de Traitement Automatique des Langues On recense plusieurs outils disponibles en ligne, susceptibles de participer à l’analyse du corpus ; notons que la plupart de ces programmes ont été conçus en vue de valider une ou plusieurs théories linguistiques particulières. Statistique textuelle et cooccurrences Alceste Inspirée du courant de l’analyse des données de Benzécri, la méthodologie ALCESTE (Analyse des Lexèmes Co-occurrents dans les Enoncés Simples d’un Texte) a été mise au point par Max Reinert (19831993). Plus qu’une comparaison des distributions statistiques des mots dans différents corpus, Reinert préconise l’étude de la structure formelle de leurs cooccurrences dans les énoncés d’un corpus donné. De manière générale, ALCESTE permet d’identifier des univers de discours ou des classes d’énoncés, interprétés en fonction de la nature du corpus et des objectifs de l’analyse. Les textes sont découpés en segments de taille homogène, appelés Unités de Contexte Elémentaires ou UCE, de longueur variable. Chaque texte est appréhendé comme un ensemble d’unités, et chaque unité est décrite par les mots qu’elle contient (à l’exclusion des mots grammaticaux). On obtient ainsi une matrice binaire, comprenant des 1 si le mot apparaît dans l’UCE, et des 0 dans le cas contraire. L’objectif est de construire sur la base de cette matrice une typologie des segments de textes, ce qui est mis en œuvre à partir d’un processus de classement itératif. Chaque UCE appartient à une classe, et les typologies obtenues sont ensuite comparées ; seules sont conservées les classes les plus stables. 8 Etiqueteurs, évaluateurs sémantiques Cordial 7 analyseur Synapse developpement, Toulouse Correcteur orthographique et grammatical. La version « Cordial Analyseur » permet à la fois un étiquetage des textes et un traitement statistique des textes étiquetés. L’étiquetage est très complet et le programme reconnaît 201 types grammaticaux, les lemmes et les fonctions grammaticales des mots, ainsi que différentes informations sémantiques. Le traitement statistique reprend l’ensemble de ces informations. Les deux fonctionnalités sont paramétrables et le moteur est extrêmement rapide (moins d’une seconde par Ko). Il est également possible de comparer les résultats obtenus sur un texte à l’ensemble du corpus dont Cordial dispose, composé de 2541 ouvrages ; en ce qui concerne notre problématique, cette fonction s’avère inutilisable. De fait, l’ensemble du corpus est à dominante littéraire et l’on ne relève que 46 textes de genre scientifique, dont 3 linguistiques, ce qui limite, voire interdit toute possibilité de catégorisation du texte. Cordial s’avère être un outil efficace pour l’étude des genres, ce qui a été démontré par les travaux de François Rastier, Denise Malrieu, et Thomas Beauvisage (2001). Il n’existe cependant pas de version bilingue du correcteur, et les étiquettes devront être adaptées. La version Cordial Analyseur 8.1. a été acquise récemment. Gram Gram est un analyseur syntaxique développé uniquement dans un but pédagogique, pour la filière TAL des sciences du langage à Aix-enProvence. Il est basé sur une analyse descendante avec allers-retours, ce qui permet à l'étudiant de voir le fonctionnement règle par règle, mais n'est pas efficace pour des applications importantes. 9 5. CONCLUSION A l’heure actuelle, les outils de T.A.L. traitent correctement les textes jusqu’au niveau syntaxique. Malheureusement dès qu’il s’agit d’interpréter automatiquement un document et donc de procéder à une analyse au niveau sémantique et pragmatique, ces outils sont beaucoup moins performants. Cet état de fait n’est pas tellement surprenant dans la mesure où la plupart des applications industrielles se préoccupent de la syntaxe et très peu de la sémantique. Cependant, depuis un certain temps la situation a tendance à s’inverser et il est apparu sur le marché de nombreux outils traitant du sens des textes. Il faut toutefois constater qu’ils en sont encore au stade de recherche et développement, même s’ils permettent d’obtenir dans certaines conditions des résultats intéressants. Il faut rester pragmatique et comprendre que ces outils permettent de traiter automatiquement des tâches relativement simples et sans valeur ajoutée. Ils ne sont en aucun cas capables de remplacer l’homme qui a un pouvoir d’abstraction et de modélisation encore largement supérieur à celui de la machine. 6. BIBLIOGRAPHIE http://www.up.univ-mrs.fr/~veronis/logiciels/Gram/index.html http://www.revue-texto.net/Corpus/manufacture/trousse/pub/TAL.doc http://www.atala.org/ http://www.cavi.univ-paris3.fr/ilpga/ilpga/ http://www.latl.unige.ch/ 10