2
- le type d'apprentissage (extraction d'informations ou classification).
Une fois ces paramètres fixés, l'IDE permet de lancer l'exportation du corpus balisé, de créer le fichier
de configuration au format voulu par Gate, et d'afficher les paramètres à utiliser pour appeler le
module Learning.
Après ces opérations, l'IDE permet de préparer l'application du modèle à un nouveau corpus prétraité
par Unitex (par défaut le corpus courant), ce qui consiste à lancer les 3 mêmes opérations : exportation
du corpus, création du fichier de configuration, affichage des paramètres à utiliser pour appeler le
module Learning.
2.6. Tests :
- exportation sous Gate d'un corpus non balisé et d'un corpus balisé
- édition manuelle des annotations avec l'éditeur de corpus de Gate
- apprentissage supervisé avec Gate, puis application du modèle obtenu à un corpus non balisé (2
expériences : extraction d'information, classification)
- importation du corpus obtenu en XML
- ouverture du corpus obtenu avec Unitex/GramLab
Suivi : Eric Laporte, Philippe Gambette, Cristian Martinez
Compétences : C/C++, Java, XML, Gate
Bornage
Intégration des deux IDE Java (Unitex et GramLab) du système Unitex/GramLab.
3.1. Classement des fonctionnalités suivant qu'elles sont accessibles depuis les deux IDE, uniquement
depuis Unitex ou uniquement depuis GramLab.
3.2. Elimination de dépendances du code Java de l'IDE GramLab vers celui d'Unitex : certaines
dépendances (souvent indirectes) de GramLab vers des classes d'Unitex sont inutiles, par exemple
celles qui résultent de l'appel d'une méthode pour fermer des fenêtres qui n'ont pas été ouvertes, ou de
l'appel de classes correspondant à des fonctionnalités non prévues et non voulues dans GramLab
(exemple : TextAutomatonFrame). Vérifier si les dépendances sont justifiées par des fonctionnalités de
GramLab, et sinon, adapter le code pour les éliminer.
3.3. Convergence de menus et boites de dialogue : certains menus et boites de dialogue sont différents
entre les deux interfaces, par exemple les deux fenêtres de préférences. Vérifier si ces différences se
justifient, et sinon, les faire converger.
3.4. Convergence d'actions : certaines actions déclenchées par le même menu sont différentes suivant
l'IDE. Vérifier si ces différences se justifient, et sinon, faire converger le code.
3.5. Ensuite, séparer le code Java d'Unitex en deux parties suivant qu'elles sont invoquées par Gramlab
ou non. Transformer le code invoqué par GramLab en une bibliothèque commune qui sera utilisée par
les deux IDE. Chaque partie de code Java devra être soit commune, soit spécifique à une des deux IDE.
Bonus : optimisation de la recherche des projets : dans GramLab, l'algorithme qui détermine à quel
projet correspond un fichier donné parcourt toute l'arborescence des projets, alors que le fichier a une
forte probabilité d'appartenir au projet courant. Adapter le code pour éviter les parcours inutiles.
Suivi : Eric Laporte, Cristian Martinez
Compétences : Java
Autres
Mise à jour de Multiflex dans Unitex
La partie mots composés de Multiflex a évolué. L'objectif du projet est de répercuter les évolutions sur
Unitex.
Suivi : Eric Laporte, Agata Savary (auteur de Multiflex, Université de Tours).
Compétences : C/C++