Université Joseph Fourier Département Licence Sciences & Technologies RAPPORT DE STAGE ____________________________________________ TRAITEMENT AUTOMATIQUE DES LANGUES THIAM Amadou Yoro Laboratoire d'acceuil : Laboratoire d'Informatique de Grenoble - LIG Directeur du laboratoire : HERVÉ Martin Responsable de stage : SÉRASSET Gilles L1 Mention Sciences et Technologies (Valence) Parcours : Mathématique et Informatique Année Universitaire : 2013 – 2014 Rapport de stage 1 Sommaire Remerciements 3 Introduction 4 I / Environnement du stage: 5 1. Présentation 5 2. Domaines de recherches 5 3. Description de la structure sociale 5 II / Les travaux effectués et les apports du stage 7 A – Les travaux effectués 7 1. Les outils mis à ma disposition 7 2. Les Missions du poste occupé 7 B – Les apports du stage 10 Conclusion 11 Annexes 12 Rapport de stage 2 REMERCIEMENTS Je tiens à remercier tout d’abord l’Université Joseph Fourier (Site de Valence) de m’avoir donné l’opportunité de découvrir le milieu de la recherche grâce au dispositif des stages d’excellence. Je remercie Marie-cecile DARRACQ-CALMETTES et Nina MANDON pour m'avoir aidé à trouver ce stage et pour leur accompagnement dans les démarches administratives. Je remercie particulièrement Gilles SERRASET, mon maiître de stage, pour son encadrement au cours de ce stage, ses conseils ainsi que son enseignement qui m'ont beaucoup apporté. Rapport de stage 3 INTRODUCTION Du 02 juin au 01 juillet 2014, j’ai effectué un stage au sein du laboratoire LIG, Laboratoire d'Informatique de Grenoble. Au cours de ce stage avec l'équipe GETALP, Groupe d'étude pour la traduction automatique et le traitement automatisé des langues et de la parole , j’ai pu m’intéresser au traitement automatique des langues. Plus largement, ce stage a été l’opportunité pour moi de decouvrir le monde de la recherche. Il m'a aussi permis d'apprendre, de développer mes compétences en matière de programmation, travail d'equipe etc. Au-delà d’enrichir mes connaissances en informatique, il m’a permis de comprendre dans quelle mesure le traitement automatique des langues est important. Mon stage avec l'équipe GETALP a consisté essentiellement à définir une structure pour le wiktionnaire bambara. En effet, depuis plusieurs années, l'équipe GETALP du laboratoire LIG extrait des données liées lexicales de différentes éditions du wiktionnaire (pendant dictionnairique de wikipédia). Ces données sont utilisées dans des applications de traitement des langues. En ce moment, 12 éditions du wiktionnaire sont extraites, comprenant des mots, avec leur définition et plus de 3 millions de traductions vers plus de 1000 langues. Du côté du site wiktionary par contre, de nombreuses langues ne contiennent que très peu de données, ou, sont non disponibles. C'est le cas de l'édition bambra du wiktionary qui est acctuellement fermée alors que les autres éditions contiennent des traductions vers des mots bambara. Par ailleurs, de nouveaux dictionnaires de langues africaines ont été numérisés lors d'un projet précédent. Parmi ceux-ci, un dictionnaire Bambara. Le but de mon stage était d'intégrer les données de dictionnaires numérisés du Bambara dans les données lexicales Dbnary, puis d'étudier les moyens de reverser ces données sur le site Wiktionary afin d'animer une communauté qui le corrigera et le fera grandir. Dans l'objectif de rendre compte de manière fidèle et analytique des quatres semaines passés au sein du laboratoire LIG, il m'a semblé essentiel de présenter l'environnement dans lequel le stage s'est effectué, à savoir le laboratoire LIG. Enfin, il sera précisé les différentes missions et tâches que j’ai pu effectuer au sein de l'équipe GETALP, et les nombreux apports que j’ai pu en tirer. Rapport de stage 4 I / Environnement du stage : Laboratoire d'Informatique de Grenoble – LIG : 1. Présentation: Situé sur le campus de Grenoble, le laboratoire d'informatique de Grenoble(LIG) est un laboratoire de recherche français en informatique, créé le 1er janvier 2007. Ce laboratoire est sous la tutelle conjointe de l'université Joseph-Fourier - Grenoble 1, de l'université Pierre-Mendès-France - Grenoble II, de l'Institut Polytechnique de Grenoble, du CNRS. Il est partenaire de l'INRIA. Aujourd'hui, le LIG compte vingt-trois équipes de recherche (dont GETALP) et il rassemble près de 500 chercheurs, enseignants-chercheurs, doctorants et personnels en support à la recherche. 2. Domaines de recherches: Les activités de recherche du laboratoire d'informatique de Grenoble couvrent de nombreux domaines de l'informatique. Les cinq axes thématiques de recherche explorés au LIG : - Génie des Logiciels et des Systèmes d’Information ; - Méthodes Formelles, Modèles et Langages ; - Systèmes Interactifs et Cognitifs ; - Systèmes Répartis, Calcul Parallèle et Réseaux ; - Traitement de Données et de Connaissances à Grande Echelle. 3. Description de la structure sociale: Les chercheurs du laboratoire sont divisés en vingt-trois équipes de recherches: • • • • • • • • • • ADELE : Environnements et outils pour le Génie Logiciel Industriel ; AMA : Apprentissage : modèles et algorithmes ; CAPP : Calculs algorithmes programmes et preuves ; DRAKKAR : Réseaux et Multimédia ; E-MOTION : Géométrie et probabilité pour le mouvement et l'action ; EXMO : Computer mediated exchange of structured knowledge ; GETALP : Groupe d'étude pour la traduction automatique et le traitement automatisé des langues et de la parole ; HADAS : Heterogenous autonomous distributed data services ; IIHM : Ingénierie de l'interaction homme-machine ; MAGMA : Modélisation d’agents autonomes en univers multi-agents ; Rapport de stage 5 • • • • • • • • • • • • • MESCAL : Middleware efficiently scalable ; MeTAH : Méthode et technologie dans l'aprentissage humain ; MOAIS : Multi-programmation et Ordonnancement sur ressources distribuées pour les Applications Interactives de Simulation ; MRIM : Modélisation et Recherche d'Information Multimédia ; MULTICOM : Conception participative, ergonomie, usages pour les systèmes interactifs. Outils et méthodes ; POP ART : Programming languages, operating systems, parallelism & aspects for real-time ; PRIMA : Perception, reconnaissance et intégration pour la modélisation d'activité ; SARDES : Architecture et construction d'infrastructures logicielles réparties ; SIGMA : Systèmes d'Information - inGénierie et Modélisation Adaptables ; STEAMER : Spatio-temporal information, adaptability, multimedia and knowledge representation ; VASCO : Validation de Systèmes, Composants et Objets logiciels ; VASY : Validation de systèmes ; WAM : Web adaptation and multimedia. Rapport de stage 6 II / Les travaux effectués et les apports du stage A – Les travaux effectués : Au cours de ce stage, j’ai eu l’opportunité de découvrir un métier sous toutes ses formes et de comprendre de manière globale les difficultés que les informaticiens pouvaient rencontrer dans l’exercice de l'informatique. Pour une meilleure compréhension des tâches que j’ai pu effectuer, il apparaît approprié de traiter en premier lieu des outils qui étaient mis à ma disposition, puis de traiter de manière détaillée les tâches que j’ai pu effectuer. 1. Les outils mis à ma disposition : Au cours de ce stage, j’ai passé le plus clair de mon temps à créer des templates. A mesure que j’apprenais, mes recherches se sont approfondies. Ce n’est donc qu’à partir de la deuxième semaine de mon stage que j’ai été véritablement opérationnel. Pour définir une structure pour le wiktionnaire bambara, je me suis inspiré de celle d'autres langues notamment celle du français, d'anglais. Le dictionnaire bambara – français de Charles Bailleul exploité par le projet dilaf a été utilisé pour créer des entrées dans le wiktionnaire bambara. Au cours d'une de mes recherches sur le bambara, je suis tombé sur www.bambara.org, un site de Richard Nci DIARRA, qui fournit des ressources pour aider les personnes qui souhaitent apprendre cette grande langue d'Afrique de l'Ouest. On y trouve des lexiques bambara-français-anglais avec ou sans photos. 2. Les Missions du poste occupé : On peut les présenter en deux grands points : définition d'une structure et création d'entrées pour le wiktionnaire bambara. a-/ Structure du Wikiɲɛgafe (wiktionnaire bambara) : La structure se veut simple pour faciliter la création d'entrées par des gens qui ne s'y connaissent pas beaucoup. L'idée générale est d'avoir pour chaque mot bambara: une définition, sa catégorie lexicale, ses traductions possibles, ses synonymes, antonymes etc. C'est en ce sens qu'on a jugé nécessaire de faire un template pour chaque catégorie lexicale possible. D'où le tableau de templates suivant. Rapport de stage 7 Rappelons qu'au moment du stage, le projet Wikiɲɛgafe était sous l'incubateur wikimedia, tous les templates devaient donc être précédés du prefixe Wt/bm. Templates Sens Wt/bm/adv Adverbe Wt/bm/excl Exclamation Wt/bm/loc Locution Wt/bm/pre Préposition Wt/bm/interj Interjection Wt/bm/n Nom Wt/bm/vi Verbe intransitif Wt/bm/vt Verbe transitif Wt/bm/adj Adjectif Wt/bm/conj Conjonction Wt/bm/pron pers Pronom personnel En plus de ceux définis dans le tableau précédent, j'ai réalisé d'autres templates pour la bonne présentation des entrées. Templates Sens Particularité Wt/bm/-bm- En-tête N'est utilisé que pour des entrées bambara. Wt/bm/decom Décomposition éventuelle d'une entrée Il prend un paramètre qui est la décomposition de l'entrée. Exemple d'utilisation: {{Wt/bm/decom| decomposition du mot}} Wt/bm/reference Références Sans paramètre Wt/bm/trad-début Ouverture de la boîte de traduction Prend un paramètre; l'entrée ou une définition de l'entrée en bambara. Ex: {{Wt/bm/trad-début| entrée}} Wt/bm/trad-fin Fermeture de la boîte de traduction Sans argument Rapport de stage 8 Wt/bm/exemple Exemple employant le mot. Il faut préciser la langue dans laquelle l'exemple est donné. Ex: {{Wt/bm/exemple|fr| exemple}} Wt/bm/hypo Hyponymes Sans argument Wt/bm/syn Synonymes Sans argument Wt/bm/ant Antonymes Sans argument Wt/bm/holo Holonymes Sans argument Wt/bm/mero Méronymes Sans argument Wt/bm/hyper Hyperonymes Sans argument Wt/bm/def Définition On donne la définition du mot en précisant la langue. Ex: {{Wt/bm/def|bm| définition}} b-/ Les entrées : Après avoir défini une structure pour le Wikiɲɛgafe, j'ai créé une vingtaine d'entrées dans ce dernier en utilisant les données du dictionnaire de Charles Bailleul. Lors de la création de l'entrée “bana”, j'ai été confronté à un problème. Selon le dictionnaire Bambara, ce mot peut avoir plusieurs sens ainsi les traductions n'étaient pas les mêmes. La question que je me posais était : Est-ce qu'il faut créer une entrée pour chaque occurrence de “bana” ? Faire une entrée pour chaque occurrence ne serait pas une bonne idée car différentes pages du Wiktionary ne peuvent avoir une même adresse et on aurait pas toutes les informations (différents sens, traductions etc) sur le mot donné en une seule fois. Nous avons donc regroupé toutes les occurrences en une seule entrée. Cependant nous avons mis en lumière les différents sens, prononciations et traductions possibles de l'entrées. S'il y a un orthographe standarisé de Bamako pour un des sens, différent de l'orthographe des autres, on crée une entrée pour celui-ci. En résumé, pour des mots ayant plusieurs sens (eventuellement de prononciations différentes), on crée une seule entrée en précisant les sens, prononciations et Rapport de stage 9 traductions possibles du mot en question. Une nouvelle entrée n'est faite pour une traduction différente du mot que s'il a un orthographe standarisé de Bamako différent de l'orthographe normal des autres. Pour faciliter la création d'entrées, j'ai élaboré des patrons (à remplir) qui sont disponibles sur l'incubateur. Au cours de mon stage, j’ai essayé avec mon collègue de rassembler une communauté, des étudiants maliens, autour de ce projet noble. Et moi personnellement, je compte continuer à travailler de près ou de loin sur ce Wikiɲɛgafe même en dehors du stage. B – Les apports du stage : Au cours de ce stage, j’ai beaucoup appris. Les apports que j’ai tiré de cette expérience professionnelle peuvent être regroupés autour de deux idées principales : les compétences acquises ainsi que les difficultés rencontrés et solutions apportées. Compétences acquises Ce stage m'a vraiment été bénéfique. J'ai appris à faire du wikicode (langage d'écriture des pages de Wiktionary), l'adaptation de programmes. Mes connaissances sur le langage JAVA se sont élargies grâce aux nouvelles notions rencontrées au cours du stage. Difficultés rencontrés et solutions apportées C'est au début que j'étais un peu perdu mais après avoir compris le wikicode et avec les bonnes explications de mon encadrant, tout s'est bien passé. Rapport de stage 10 Conclusion Après ce mois de stage, le nombre de compétences que cela m’a permis de développer est délicat à définir, puisque après seulement une seule unité d’enseignement d’informatique, produire un travail de qualité apparaissait difficile; pourtant, toutes ces lacunes ont pu être surpassées grâce au soutien constant de mon maître de stage. Nous avons pu donner une structure simple et robuste au Wikiɲɛgafe, l'objectif du stage a donc été atteint en quelques sortes. La prochaine étape du travail à effectuer est de reverser de nombreuses entrées dans le Wikiɲɛgafe pour qu'il puisse sortir de l'incubateur. Rapport de stage 11 Annexes Rapport de stage 12 Exemple de code wikicode == {{Wt/bm/-bm-}} == {{Wt/bm/n|}} {{Wt/bm/pron|denbaya|denbaya}} {{Wt/bm/decom|den.ba.ya {enfant.bcp.suf abs}}} # {{Wt/bm/aucune}} ==== {{Wt/bm/trad}} ==== {{Wt/bm/trad-début|denbaya|sens 1}} * Faransikan: {{Wt/bm/tradt|fr|famille}} (nucléaire : géniteurs + enfants) {{Wt/bm/trad-fin}} {{Wt/bm/vi|}} {{Wt/bm/pron|denbaya|denbaya}} {{Wt/bm/decom|denba.ya {famille.suf caus}}} # {{Wt/bm/aucune}} ==== {{Wt/bm/trad}} ==== {{Wt/bm/trad-début|denbaya|sens 2}} * Faransikan: {{Wt/bm/tradt|fr| avoir des enfants, des petits}} (nombreux) , {{Wt/bm/tradt|fr|avoir une femme et des enfants}} (pour un homme) {{Wt/bm/trad-fin}} {{Wt/bm/references}} *{{Wt/bm/bailleul}} [[Category:Wt/bm]] Résultat sur https://incubator.wikimedia.org/wiki/Wt/bm/denbaya Rapport de stage 13 9/11/2014 Wt/bm/Wikiɲɛgafe:Nyɛ fɔlɔ - Wikimedia Incubator Wt/bm/Wikiɲɛgafe:Nyɛ fɔlɔ From Wikimedia Incubator Wt > bm > Wikiɲɛgafe:Nyɛ fɔlɔ < Wt | bm Wikiɲɛgafe Daɲɛgafe fou la ma min, bɛ be se ka dô fara a kan ! Aw ni sɔgɔma! Wt/bm/ Article nouveau Walisa ka "clavier" sɔrɔ bamanankan na "Clavier" bambara (http://www.mali­pense.net/Ressources­ pour­la­pratique­du.html) Walisa ka koriyelan sɔrɔ bamanankan na, a ye ta ni siti kan Bamanankan koriyelan (http://extensions.libreoffice.org/extension­center/bambara­bamanakan­spell­checker) Dɛmɛ Retrieved from "http://incubator.wikimedia.org/w/index.php? title=Wt/bm/Wikiɲɛgafe:Nyɛ_fɔlɔ&oldid=2111161" Category: Wt/bm This page was last modified on 27 June 2014, at 09:20. Text is available under the Creative Commons Attribution­ShareAlike License; additional terms may apply. See Terms of Use for details. http://incubator.wikimedia.org/wiki/Wt/bm/Wiki%C9%B2%C9%9Bgafe:Ny%C9%9B_f%C9%94l%C9%94 1/1 9/11/2014 Wt/bm/bana - Wikimedia Incubator Wt/bm/bana From Wikimedia Incubator Wt > bm > bana < Wt | bm Contents 1 Bamanankan 1.1 Nom 1 1.1.1 Synonymes 1.1.2 Antonymes 1.1.3 Traductions 1.2 Nom 2 1.2.1 Traductions 1.3 Verbe Transitif 1.3.1 Traductions 1.4 Verbe intransitif 1.4.1 Traductions 1.5 Références Bamanankan Yeli kɛ : Wt/bm/baana,Wt/bm/banan,Wt/bm/­bana Nom 1 bana \bàna\ 1. Aucune définition n'est disponible pour le moment en bambara. Si vous la connaissez, vous pouvez l'ajouter. fr:Une altération des fonctions ou de la santé d'un organisme vivant, animal ou végétal. ni bana juguyara ... [ni bàna juguyara ...] fr: si la maladie empire... bana ma kun a la / bana ma ɲa [bàna ma kun à la / bàna ma ɲà] fr: il est mort bana y'a minɛ / bana y'a sɔrɔ / bana bir'a kan [bàna y'a mìnɛ / bàna y'a sɔ̀ rɔ / bàna bìr'a kàn] fr: il est tombé malade Synonymes http://incubator.wikimedia.org/wiki/Wt/bm/bana 1/3 9/11/2014 Wt/bm/bana - Wikimedia Incubator Wt/bm/jankaro Antonymes Wt/bm/kɛnɛ ya Traductions sens 1 hide ▲ Faransikan: maladie (fr) , affection (fr) Angilɛkan: disease (en) , illness (en) Nom 2 bana \bana\ 1. Aucune définition n'est disponible pour le moment en bambara. Si vous la connaissez, vous pouvez l'ajouter. a taara bana kɔ [à taara bana kɔ] fr: il est allé aux cabinets 2. Aucune définition n'est disponible pour le moment en bambara. Si vous la connaissez, vous pouvez l'ajouter. dugukɔfɛla ye bana ye [dùgùkɔ̀ fɛ̀ la ye bana ye] fr: le 'bana' c'est l'extérieur du village Traductions sens 2 hide ▲ Faransikan: extérieur du village (fr) Verbe Transitif bana \bàna\ 1. Aucune définition n'est disponible pour le moment en bambara. Si vous la connaissez, vous pouvez l'ajouter. a banalen [à bànàlen] http://incubator.wikimedia.org/wiki/Wt/bm/bana 2/3 9/11/2014 Wt/bm/bana - Wikimedia Incubator fr: il est malade Traductions sens 3 hide ▲ Faransikan: rendre malade (fr) Verbe intransitif bana \bàna\ 1. Aucune définition n'est disponible pour le moment en bambara. Si vous la connaissez, vous pouvez l'ajouter. Traductions sens 4 hide ▲ Faransikan: tomber malade (fr) Références Tout ou partie de cet article est importé du dictionnaire Bamabara­Français du projet Dilaf (http://www.dilaf.org/ConsultPage.po?VOLUME=DiLAF_bam_fra) , lui même extrait du Dictionnaire bambara­français du Charles Bailleul (https://fr.wikipedia.org/wiki/Charles_Bailleul) Retrieved from "http://incubator.wikimedia.org/w/index.php?title=Wt/bm/bana&oldid=2104810" Category: Wt/bm This page was last modified on 24 June 2014, at 10:12. Text is available under the Creative Commons Attribution­ShareAlike License; additional terms may apply. See Terms of Use for details. http://incubator.wikimedia.org/wiki/Wt/bm/bana 3/3 Le projet DiLAF : bambara, haoussa, kanouri, tam... Accueil Dictionnaire Projet bambara- français du Père Charles Bailleul, éd. 1996 http://www.dilaf.org/ConsultPage.po?VOLUME=D... Informations Aide Recherche : Contacts Recherche avancée → a a a a aayi abada a [a] Catégorie lexicale : excl. Équivalent français : exclamation de surprise : ah ! abada abarika adamaden a adamadenya Catégorie lexicale : excl. [a] se prononce très bref a dɔ la Équivalent français : exclamation de réticence ah ! a dɔ ra a dɔ rɔ a ka c'a ra a [à] Catégorie lexicale : pr. (dit) de la troisième pers.sg. Exemple d'usage : a y'a d'a ma [à y'a d'a mà] il le lui a donné ; elle la lui donna ... Exemple d'usage : a ba don [à ba dòn] c'est sa mère (la mère de lui, d'elle) Exemple d'usage : a ta tɛ [à ta tɛ] ce n'est pas le sien ... la sienne.. (ce n'est pas sa propriété) 1 of 2 09/09/2014 22:21 Le projet DiLAF : bambara, haoussa, kanouri, tam... http://www.dilaf.org/ConsultPage.po?VOLUME=D... Équivalent français : il, elle ; le, la, lui ; en, y ; son, sa, ses a [à] Catégorie lexicale : sens démonstratif, annonçant ce qui suit Exemple d'usage : i n'a fɔ [i n'a fɔ] tu dirais ceci, par exemple.... Exemple d'usage : o y'a sɔrɔ [ò y'a sɔ̀rɔ] cela a obtenu ceci : ... alors Équivalent français : ceci, cela Mise à jour : 26 novembre 2013. Plate-forme : © 2001-2013, GETA-CLIPS, GETALP-LIG. Licence LGPL. Données : © 2013, projet DiLAF et partenaires. Licence Creative Commons By. ; se loguer 2 of 2 09/09/2014 22:21 Bambara http://www.bambara.org/fr/index.htm Don o don, tulo bɛ taa kalanso. Chaque jour, l'oreille va à l'école. Voir ce site en : anglais | français I bisimila ! Soyez la bienvenue à notre site-web pour la langue bambara du Mali, bamanankan. Ici vous trouverez des ressources pour vous aider dans votre apprentissage de cette grande langue de l'Afrique de l'Ouest. Livres recommandés Lexique à regarder en ligne Voici un lexique qui a été créé comme aide pratique pour ceux qui apprennent la langue bambara. Définitions et traductions sont données en français et en anglais. Lexique bambara-français-anglais (Date de sortie : 13 décembre 2010) Grammaire fondamentale du bambara Gérard Dumestre Lexique à consulter hors ligne En utilisant le logiciel Lexique Pro, vous pouvez consulter le lexique bambara hors ligne. Ces deux téléchargements contiennent le même lexique. La différence est que le premier contient une centaine d'images, ce qui fait que l'installation soit de plus grande taille. Si vous n'avez pas de ligne à haut débit, il vous sera peut-être plus facile de télécharger le deuxième qui est sans images. Lexique Pro: bambara-françaisanglais (avec photos) Date de sortie : 13 décembre 2010 Taille : 21.9 Mo Sagesse Bambara proverbes et sentences Charles Bailleul Lexique Pro: bambara-françaisanglais (sans photos) Date de sortie : 13 décembre 2010 Taille : 5.9 Mo Site créé par Richard Nci DIARRA, Koutiala, République du Mali. Si vous avez des suggestions ou commentaires, vous pouvez les envoyer à [email protected] 1 of 1 09/09/2014 22:21