RAPPORT DE STAGE TRAITEMENT AUTOMATIQUE DES

publicité
Université Joseph Fourier
Département Licence Sciences & Technologies
RAPPORT DE STAGE
____________________________________________
TRAITEMENT AUTOMATIQUE DES LANGUES
THIAM Amadou Yoro
Laboratoire d'acceuil : Laboratoire d'Informatique de Grenoble - LIG
Directeur du laboratoire : HERVÉ Martin
Responsable de stage : SÉRASSET Gilles
L1 Mention Sciences et Technologies (Valence)
Parcours : Mathématique et Informatique
Année Universitaire : 2013 – 2014
Rapport de stage
1
Sommaire
Remerciements
3
Introduction
4
I / Environnement du stage:
5
1. Présentation
5
2. Domaines de recherches
5
3. Description de la structure sociale
5
II / Les travaux effectués et les apports du stage
7
A – Les travaux effectués
7
1. Les outils mis à ma disposition
7
2. Les Missions du poste occupé
7
B – Les apports du stage
10
Conclusion
11
Annexes
12
Rapport de stage
2
REMERCIEMENTS
Je tiens à remercier tout d’abord l’Université Joseph Fourier (Site de Valence)
de m’avoir donné l’opportunité de découvrir le milieu de la recherche grâce au
dispositif des stages d’excellence.
Je remercie Marie-cecile DARRACQ-CALMETTES et Nina MANDON pour
m'avoir aidé à trouver ce stage et pour leur accompagnement dans les
démarches administratives.
Je remercie particulièrement Gilles SERRASET, mon maiître de stage, pour son
encadrement au cours de ce stage, ses conseils ainsi que son enseignement qui
m'ont beaucoup apporté.
Rapport de stage
3
INTRODUCTION
Du 02 juin au 01 juillet 2014, j’ai effectué un stage au sein du laboratoire LIG,
Laboratoire d'Informatique de Grenoble. Au cours de ce stage avec l'équipe GETALP,
Groupe d'étude pour la traduction automatique et le traitement automatisé des langues
et de la parole , j’ai pu m’intéresser au traitement automatique des langues.
Plus largement, ce stage a été l’opportunité pour moi de decouvrir le monde de la
recherche. Il m'a aussi permis d'apprendre, de développer mes compétences en
matière de programmation, travail d'equipe etc.
Au-delà d’enrichir mes connaissances en informatique, il m’a permis de comprendre
dans quelle mesure le traitement automatique des langues est important.
Mon stage avec l'équipe GETALP a consisté essentiellement à définir une structure
pour le wiktionnaire bambara.
En effet, depuis plusieurs années, l'équipe GETALP du laboratoire LIG extrait des
données liées lexicales de différentes éditions du wiktionnaire (pendant
dictionnairique de wikipédia).
Ces données sont utilisées dans des applications de traitement des langues.
En ce moment, 12 éditions du wiktionnaire sont extraites, comprenant des mots, avec
leur définition et plus de 3 millions de traductions vers plus de 1000 langues.
Du côté du site wiktionary par contre, de nombreuses langues ne contiennent que très
peu de données, ou, sont non disponibles. C'est le cas de l'édition bambra du
wiktionary qui est acctuellement fermée alors que les autres éditions contiennent des
traductions vers des mots bambara.
Par ailleurs, de nouveaux dictionnaires de langues africaines ont été numérisés lors
d'un projet précédent. Parmi ceux-ci, un dictionnaire Bambara.
Le but de mon stage était d'intégrer les données de dictionnaires numérisés
du Bambara dans les données lexicales Dbnary, puis d'étudier les moyens de reverser
ces données sur le site Wiktionary afin d'animer une communauté qui le corrigera et
le fera grandir.
Dans l'objectif de rendre compte de manière fidèle et analytique des quatres semaines
passés au sein du laboratoire LIG, il m'a semblé essentiel de présenter
l'environnement dans lequel le stage s'est effectué, à savoir le laboratoire LIG.
Enfin, il sera précisé les différentes missions et tâches que j’ai pu effectuer au sein de
l'équipe GETALP, et les nombreux apports que j’ai pu en tirer.
Rapport de stage
4
I / Environnement du stage :
Laboratoire d'Informatique de Grenoble – LIG :
1. Présentation:
Situé sur le campus de Grenoble, le laboratoire d'informatique de Grenoble(LIG) est
un laboratoire de recherche français en informatique, créé le 1er janvier 2007.
Ce laboratoire est sous la tutelle conjointe de l'université Joseph-Fourier - Grenoble
1, de l'université Pierre-Mendès-France - Grenoble II, de l'Institut Polytechnique de
Grenoble, du CNRS. Il est partenaire de l'INRIA.
Aujourd'hui, le LIG compte vingt-trois équipes de recherche (dont GETALP) et il
rassemble près de 500 chercheurs, enseignants-chercheurs, doctorants et personnels
en support à la recherche.
2. Domaines de recherches:
Les activités de recherche du laboratoire d'informatique de Grenoble couvrent de
nombreux domaines de l'informatique.
Les cinq axes thématiques de recherche explorés au LIG :
- Génie des Logiciels et des Systèmes d’Information ;
- Méthodes Formelles, Modèles et Langages ;
- Systèmes Interactifs et Cognitifs ;
- Systèmes Répartis, Calcul Parallèle et Réseaux ;
- Traitement de Données et de Connaissances à Grande Echelle.
3. Description de la structure sociale:
Les chercheurs du laboratoire sont divisés en vingt-trois équipes de recherches:
•
•
•
•
•
•
•
•
•
•
ADELE : Environnements et outils pour le Génie Logiciel Industriel ;
AMA : Apprentissage : modèles et algorithmes ;
CAPP : Calculs algorithmes programmes et preuves ;
DRAKKAR : Réseaux et Multimédia ;
E-MOTION : Géométrie et probabilité pour le mouvement et l'action ;
EXMO : Computer mediated exchange of structured knowledge ;
GETALP : Groupe d'étude pour la traduction automatique et le
traitement automatisé des langues et de la parole ;
HADAS : Heterogenous autonomous distributed data services ;
IIHM : Ingénierie de l'interaction homme-machine ;
MAGMA : Modélisation d’agents autonomes en univers multi-agents ;
Rapport de stage
5
•
•
•
•
•
•
•
•
•
•
•
•
•
MESCAL : Middleware efficiently scalable ;
MeTAH : Méthode et technologie dans l'aprentissage humain ;
MOAIS : Multi-programmation et Ordonnancement sur ressources
distribuées pour les Applications Interactives de Simulation ;
MRIM : Modélisation et Recherche d'Information Multimédia ;
MULTICOM : Conception participative, ergonomie, usages pour les
systèmes interactifs. Outils et méthodes ;
POP ART : Programming languages, operating systems, parallelism &
aspects for real-time ;
PRIMA : Perception, reconnaissance et intégration pour la modélisation
d'activité ;
SARDES : Architecture et construction d'infrastructures logicielles
réparties ;
SIGMA : Systèmes d'Information - inGénierie et Modélisation Adaptables ;
STEAMER : Spatio-temporal information, adaptability, multimedia and
knowledge representation ;
VASCO : Validation de Systèmes, Composants et Objets logiciels ;
VASY : Validation de systèmes ;
WAM : Web adaptation and multimedia.
Rapport de stage
6
II / Les travaux effectués et les apports du stage
A – Les travaux effectués :
Au cours de ce stage, j’ai eu l’opportunité de découvrir un métier sous toutes ses
formes et de comprendre de manière globale les difficultés que les informaticiens
pouvaient rencontrer dans l’exercice de l'informatique. Pour une meilleure
compréhension des tâches que j’ai pu effectuer, il apparaît approprié de traiter en
premier lieu des outils qui étaient mis à ma disposition, puis de traiter de manière
détaillée les tâches que j’ai pu effectuer.
1. Les outils mis à ma disposition :
Au cours de ce stage, j’ai passé le plus clair de mon temps à créer des templates.
A mesure que j’apprenais, mes recherches se sont approfondies. Ce n’est donc qu’à
partir de la deuxième semaine de mon stage que j’ai été véritablement opérationnel.
Pour définir une structure pour le wiktionnaire bambara, je me suis inspiré de celle
d'autres langues notamment celle du français, d'anglais.
Le dictionnaire bambara – français de Charles Bailleul exploité par le projet dilaf a
été utilisé pour créer des entrées dans le wiktionnaire bambara.
Au cours d'une de mes recherches sur le bambara, je suis tombé sur
www.bambara.org, un site de Richard Nci DIARRA, qui fournit des ressources pour
aider les personnes qui souhaitent apprendre cette grande langue d'Afrique de l'Ouest.
On y trouve des lexiques bambara-français-anglais avec ou sans photos.
2. Les Missions du poste occupé :
On peut les présenter en deux grands points : définition d'une structure et création
d'entrées pour le wiktionnaire bambara.
a-/ Structure du Wikiɲɛgafe (wiktionnaire bambara) :
La structure se veut simple pour faciliter la création d'entrées par des gens qui ne s'y
connaissent pas beaucoup.
L'idée générale est d'avoir pour chaque mot bambara: une définition, sa catégorie
lexicale, ses traductions possibles, ses synonymes, antonymes etc.
C'est en ce sens qu'on a jugé nécessaire de faire un template pour chaque catégorie
lexicale possible.
D'où le tableau de templates suivant.
Rapport de stage
7
Rappelons qu'au moment du stage, le projet Wikiɲɛgafe était sous l'incubateur wikimedia, tous les
templates devaient donc être précédés du prefixe Wt/bm.
Templates
Sens
Wt/bm/adv
Adverbe
Wt/bm/excl
Exclamation
Wt/bm/loc
Locution
Wt/bm/pre
Préposition
Wt/bm/interj
Interjection
Wt/bm/n
Nom
Wt/bm/vi
Verbe intransitif
Wt/bm/vt
Verbe transitif
Wt/bm/adj
Adjectif
Wt/bm/conj
Conjonction
Wt/bm/pron pers
Pronom personnel
En plus de ceux définis dans le tableau précédent, j'ai réalisé d'autres templates pour
la bonne présentation des entrées.
Templates
Sens
Particularité
Wt/bm/-bm-
En-tête
N'est utilisé que pour des
entrées bambara.
Wt/bm/decom
Décomposition éventuelle
d'une entrée
Il prend un paramètre qui
est la décomposition de
l'entrée.
Exemple d'utilisation:
{{Wt/bm/decom|
decomposition du mot}}
Wt/bm/reference
Références
Sans paramètre
Wt/bm/trad-début
Ouverture de la boîte de
traduction
Prend un paramètre;
l'entrée ou une définition
de l'entrée en bambara.
Ex: {{Wt/bm/trad-début|
entrée}}
Wt/bm/trad-fin
Fermeture de la boîte de
traduction
Sans argument
Rapport de stage
8
Wt/bm/exemple
Exemple employant le mot. Il faut préciser la langue
dans laquelle l'exemple est
donné.
Ex: {{Wt/bm/exemple|fr|
exemple}}
Wt/bm/hypo
Hyponymes
Sans argument
Wt/bm/syn
Synonymes
Sans argument
Wt/bm/ant
Antonymes
Sans argument
Wt/bm/holo
Holonymes
Sans argument
Wt/bm/mero
Méronymes
Sans argument
Wt/bm/hyper
Hyperonymes
Sans argument
Wt/bm/def
Définition
On donne la définition du
mot en précisant la langue.
Ex:
{{Wt/bm/def|bm|
définition}}
b-/ Les entrées :
Après avoir défini une structure pour le Wikiɲɛgafe, j'ai créé une vingtaine d'entrées
dans ce dernier en utilisant les données du dictionnaire de Charles Bailleul.
Lors de la création de l'entrée “bana”, j'ai été confronté à un problème.
Selon le dictionnaire Bambara, ce mot peut avoir plusieurs sens ainsi les traductions
n'étaient pas les mêmes.
La question que je me posais était : Est-ce qu'il faut créer une entrée pour chaque
occurrence de “bana” ?
Faire une entrée pour chaque occurrence ne serait pas une bonne idée car différentes
pages du Wiktionary ne peuvent avoir une même adresse et on aurait pas toutes les
informations (différents sens, traductions etc) sur le mot donné en une seule fois.
Nous avons donc regroupé toutes les occurrences en une seule entrée.
Cependant nous avons mis en lumière les différents sens, prononciations et
traductions possibles de l'entrées.
S'il y a un orthographe standarisé de Bamako pour un des sens, différent de
l'orthographe des autres, on crée une entrée pour celui-ci.
En résumé, pour des mots ayant plusieurs sens (eventuellement de prononciations
différentes), on crée une seule entrée en précisant les sens, prononciations et
Rapport de stage
9
traductions possibles du mot en question.
Une nouvelle entrée n'est faite pour une traduction différente du mot que s'il a un
orthographe standarisé de Bamako différent de l'orthographe normal des autres.
Pour faciliter la création d'entrées, j'ai élaboré des patrons (à remplir) qui sont
disponibles sur l'incubateur.
Au cours de mon stage, j’ai essayé avec mon collègue de rassembler une
communauté, des étudiants maliens, autour de ce projet noble.
Et moi personnellement, je compte continuer à travailler de près ou de loin sur ce
Wikiɲɛgafe même en dehors du stage.
B – Les apports du stage :
Au cours de ce stage, j’ai beaucoup appris. Les apports que j’ai tiré de cette
expérience professionnelle peuvent être regroupés autour de deux idées principales :
les compétences acquises ainsi que les difficultés rencontrés et solutions apportées.
Compétences acquises
Ce stage m'a vraiment été bénéfique.
J'ai appris à faire du wikicode (langage d'écriture des pages de Wiktionary),
l'adaptation de programmes.
Mes connaissances sur le langage JAVA se sont élargies grâce aux nouvelles notions
rencontrées au cours du stage.
Difficultés rencontrés et solutions apportées
C'est au début que j'étais un peu perdu mais après avoir compris le wikicode et avec
les bonnes explications de mon encadrant, tout s'est bien passé.
Rapport de stage
10
Conclusion
Après ce mois de stage, le nombre de compétences que cela m’a permis de
développer est délicat à définir, puisque après seulement une seule unité
d’enseignement d’informatique, produire un travail de qualité apparaissait difficile;
pourtant, toutes ces lacunes ont pu être surpassées grâce au soutien constant de mon
maître de stage.
Nous avons pu donner une structure simple et robuste au Wikiɲɛgafe, l'objectif du
stage a donc été atteint en quelques sortes.
La prochaine étape du travail à effectuer est de reverser de nombreuses entrées dans
le Wikiɲɛgafe pour qu'il puisse sortir de l'incubateur.
Rapport de stage
11
Annexes
Rapport de stage
12
Exemple de code wikicode
== {{Wt/bm/-bm-}} ==
{{Wt/bm/n|}}
{{Wt/bm/pron|denbaya|denbaya}}
{{Wt/bm/decom|den.ba.ya {enfant.bcp.suf abs}}}
# {{Wt/bm/aucune}}
==== {{Wt/bm/trad}} ====
{{Wt/bm/trad-début|denbaya|sens 1}}
* Faransikan: {{Wt/bm/tradt|fr|famille}} (nucléaire : géniteurs + enfants)
{{Wt/bm/trad-fin}}
{{Wt/bm/vi|}}
{{Wt/bm/pron|denbaya|denbaya}}
{{Wt/bm/decom|denba.ya {famille.suf caus}}}
# {{Wt/bm/aucune}}
==== {{Wt/bm/trad}} ====
{{Wt/bm/trad-début|denbaya|sens 2}}
* Faransikan: {{Wt/bm/tradt|fr| avoir des enfants, des petits}} (nombreux) ,
{{Wt/bm/tradt|fr|avoir une femme et des enfants}} (pour un homme)
{{Wt/bm/trad-fin}}
{{Wt/bm/references}}
*{{Wt/bm/bailleul}}
[[Category:Wt/bm]]
Résultat sur https://incubator.wikimedia.org/wiki/Wt/bm/denbaya
Rapport de stage
13
9/11/2014
Wt/bm/Wikiɲɛgafe:Nyɛ fɔlɔ - Wikimedia Incubator
Wt/bm/Wikiɲɛgafe:Nyɛ fɔlɔ
From Wikimedia Incubator
Wt > bm > Wikiɲɛgafe:Nyɛ fɔlɔ
< Wt​
| bm
Wikiɲɛgafe
Daɲɛgafe fou la ma min, bɛ be se ka dô fara a kan !
Aw ni sɔgɔma!
Wt/bm/
Article nouveau
Walisa ka "clavier" sɔrɔ bamanankan na "Clavier" bambara (http://www.mali­pense.net/Ressources­
pour­la­pratique­du.html)
Walisa ka koriyelan sɔrɔ bamanankan na, a ye ta ni siti kan Bamanankan koriyelan
(http://extensions.libreoffice.org/extension­center/bambara­bamanakan­spell­checker)
Dɛmɛ
Retrieved from "http://incubator.wikimedia.org/w/index.php?
title=Wt/bm/Wikiɲɛgafe:Nyɛ_fɔlɔ&oldid=2111161"
Category: Wt/bm
This page was last modified on 27 June 2014, at 09:20.
Text is available under the Creative Commons Attribution­ShareAlike License; additional terms
may apply. See Terms of Use for details.
http://incubator.wikimedia.org/wiki/Wt/bm/Wiki%C9%B2%C9%9Bgafe:Ny%C9%9B_f%C9%94l%C9%94
1/1
9/11/2014
Wt/bm/bana - Wikimedia Incubator
Wt/bm/bana
From Wikimedia Incubator
Wt > bm > bana
< Wt​
| bm
Contents
1 Bamanankan
1.1 Nom 1
1.1.1 Synonymes
1.1.2 Antonymes
1.1.3 Traductions
1.2 Nom 2
1.2.1 Traductions
1.3 Verbe Transitif
1.3.1 Traductions
1.4 Verbe intransitif
1.4.1 Traductions
1.5 Références
Bamanankan
Yeli kɛ : Wt/bm/baana,Wt/bm/banan,Wt/bm/­bana
Nom 1
bana \bàna\
1. Aucune définition n'est disponible pour le moment en bambara. Si vous la connaissez, vous
pouvez l'ajouter.
fr:Une altération des fonctions ou de la santé d'un organisme vivant, animal ou végétal.
ni bana juguyara ... [ni bàna juguyara ...]
fr: si la maladie empire...
bana ma kun a la / bana ma ɲa [bàna ma kun à la / bàna ma ɲà]
fr: il est mort
bana y'a minɛ / bana y'a sɔrɔ / bana bir'a kan [bàna y'a mìnɛ / bàna y'a sɔ̀
rɔ / bàna
bìr'a kàn]
fr: il est tombé malade
Synonymes
http://incubator.wikimedia.org/wiki/Wt/bm/bana
1/3
9/11/2014
Wt/bm/bana - Wikimedia Incubator
Wt/bm/jankaro
Antonymes
Wt/bm/kɛnɛ ya
Traductions
sens 1
hide ▲
Faransikan: maladie (fr) , affection (fr)
Angilɛkan: disease (en) , illness (en)
Nom 2
bana \bana\
1. Aucune définition n'est disponible pour le moment en bambara. Si vous la connaissez, vous
pouvez l'ajouter.
a taara bana kɔ [à taara bana kɔ]
fr: il est allé aux cabinets
2. Aucune définition n'est disponible pour le moment en bambara. Si vous la connaissez, vous
pouvez l'ajouter.
dugukɔfɛla ye bana ye [dùgùkɔ̀
fɛ̀
la ye bana ye]
fr: le 'bana' c'est l'extérieur du village
Traductions
sens 2
hide ▲
Faransikan: extérieur du village (fr)
Verbe Transitif
bana \bàna\
1. Aucune définition n'est disponible pour le moment en bambara. Si vous la connaissez, vous
pouvez l'ajouter.
a banalen [à bànàlen]
http://incubator.wikimedia.org/wiki/Wt/bm/bana
2/3
9/11/2014
Wt/bm/bana - Wikimedia Incubator
fr: il est malade
Traductions
sens 3
hide ▲
Faransikan: rendre malade (fr)
Verbe intransitif
bana \bàna\
1. Aucune définition n'est disponible pour le moment en bambara. Si vous la connaissez, vous
pouvez l'ajouter.
Traductions
sens 4
hide ▲
Faransikan: tomber malade (fr)
Références
Tout ou partie de cet article est importé du dictionnaire Bamabara­Français du projet Dilaf
(http://www.dilaf.org/ConsultPage.po?VOLUME=DiLAF_bam_fra) , lui même extrait du Dictionnaire
bambara­français du Charles Bailleul (https://fr.wikipedia.org/wiki/Charles_Bailleul)
Retrieved from "http://incubator.wikimedia.org/w/index.php?title=Wt/bm/bana&oldid=2104810"
Category: Wt/bm
This page was last modified on 24 June 2014, at 10:12.
Text is available under the Creative Commons Attribution­ShareAlike License; additional terms
may apply. See Terms of Use for details.
http://incubator.wikimedia.org/wiki/Wt/bm/bana
3/3
Le projet DiLAF : bambara, haoussa, kanouri, tam...
Accueil
Dictionnaire
Projet
bambara-
français
du Père Charles Bailleul,
éd. 1996
http://www.dilaf.org/ConsultPage.po?VOLUME=D...
Informations
Aide
Recherche :
Contacts
Recherche
avancée
→
a
a
a
a
aayi
abada
a
[a]
Catégorie lexicale : excl.
Équivalent français : exclamation de surprise : ah !
abada
abarika
adamaden
a
adamadenya
Catégorie lexicale : excl.
[a] se prononce très bref
a dɔ la
Équivalent français : exclamation de réticence ah !
a dɔ ra
a dɔ rɔ
a ka c'a ra
a
[à]
Catégorie lexicale : pr. (dit) de la troisième pers.sg.
Exemple d'usage : a y'a d'a ma
[à y'a d'a mà]
il le lui a donné ; elle la lui donna ...
Exemple d'usage : a ba don
[à ba dòn]
c'est sa mère (la mère de lui, d'elle)
Exemple d'usage : a ta tɛ
[à ta tɛ]
ce n'est pas le sien ... la sienne.. (ce n'est pas
sa propriété)
1 of 2
09/09/2014 22:21
Le projet DiLAF : bambara, haoussa, kanouri, tam...
http://www.dilaf.org/ConsultPage.po?VOLUME=D...
Équivalent français : il, elle ; le, la, lui ; en, y ; son, sa, ses
a
[à]
Catégorie lexicale : sens démonstratif, annonçant ce qui suit
Exemple d'usage : i n'a fɔ
[i n'a fɔ]
tu dirais ceci, par exemple....
Exemple d'usage : o y'a sɔrɔ
[ò y'a sɔ̀rɔ]
cela a obtenu ceci : ... alors
Équivalent français : ceci, cela
Mise à jour : 26 novembre 2013. Plate-forme : © 2001-2013, GETA-CLIPS, GETALP-LIG. Licence LGPL. Données : © 2013, projet DiLAF et partenaires.
Licence Creative Commons By. ; se loguer
2 of 2
09/09/2014 22:21
Bambara
http://www.bambara.org/fr/index.htm
Don o don, tulo bɛ taa kalanso. Chaque jour, l'oreille va à l'école.
Voir ce site en : anglais | français
I bisimila ! Soyez la bienvenue à notre site-web pour
la langue bambara du Mali, bamanankan. Ici vous
trouverez des ressources pour vous aider dans votre
apprentissage de cette grande langue de l'Afrique de
l'Ouest.
Livres
recommandés
Lexique à regarder en ligne
Voici un lexique qui a été créé comme aide pratique
pour ceux qui apprennent la langue bambara.
Définitions et traductions sont données en français et
en anglais.
Lexique bambara-français-anglais
(Date de sortie : 13 décembre 2010)
Grammaire
fondamentale du
bambara
Gérard Dumestre
Lexique à consulter hors ligne
En utilisant le logiciel Lexique Pro, vous pouvez
consulter le lexique bambara hors ligne. Ces deux
téléchargements contiennent le même lexique. La
différence est que le premier contient une centaine
d'images, ce qui fait que l'installation soit de plus
grande taille. Si vous n'avez pas de ligne à haut
débit, il vous sera peut-être plus facile de télécharger
le deuxième qui est sans images.
Lexique Pro: bambara-françaisanglais (avec photos)
Date de sortie : 13 décembre 2010
Taille : 21.9 Mo
Sagesse Bambara proverbes et
sentences
Charles Bailleul
Lexique Pro: bambara-françaisanglais (sans photos)
Date de sortie : 13 décembre 2010
Taille : 5.9 Mo
Site créé par Richard Nci DIARRA, Koutiala, République du Mali.
Si vous avez des suggestions ou commentaires, vous pouvez les envoyer à [email protected]
1 of 1
09/09/2014 22:21
Téléchargement