16/04/2017 2
B) Analyse lexicale du texte
NooJ permet de faire des recherches à partir des catégories grammaticales ou des lemmes, mais il faut pour
cela qu’une analyse lexicale des corpus ait été réalisée.
Pour effectuer l’analyse lexicale, aller sur TEXT/Linguistic analysis (ou en cliquant sur le bouton droit de la
souris, puis Linguistic Analysis).
Une fois que l’analyse linguistique est
terminée, enregistrer le fichier.
Plusieurs fichiers sont produits par le
système :
- le fichier des caractères et leur
fréquence.
- le fichier des « tokens » (mots-
formes) et leur fréquence.
- le fichier des digrammes (suite de
deux tokens) et leur fréquence.
- le fichier des mots annotés
(annotation) : mots analysés par
l’analyseur lexical.
- le fichier des mots inconnus par
l’analyseur lexical.
Q1. A partir du fichier des tokens : Cliquer sur « fréquence » on obtient les tokens par ordre de
fréquences décroissantes. Quels sont les premiers mots lexicaux ? A quel rang apparaissent-
ils ?
Q2 : Quels sont les digrams qui relèvent de la thématique des aliments santé ?
Classez-les par ordre de fréquences décroissantes ?
C) Interrogation sur une expression régulière (a NooJ regular expression)
1) Mot forme
vont
extrait toutes les occurrences de « vont »
2 ) Lemme
Interrogation à partir de la forme canonique (le lemme) du mot ; l’infinitif pour le verbe, le
singulier pour le nom, le masculin singulier pour l’adjectif, etc. Pour interroger sur le lemme,
on entoure le mot de chevrons.
<aller>
extrait toutes les formes du verbes aller : vais, va, iront, iraient …
On peut ajouter aux lemmes des informations morphologiques (genre, nombre, temps, etc.).
L’ordre des traits n’a pas d’importance.
<être+3+s> : verbe être à la troisième personne
<manger+P> : le verbe ronger au présent