Recherches dans les textes catégorisés : Corrigé

publicité
Linguistique informatique
A.Mela
------------------------------------------------------------------------------------
Recherches dans les textes catégorisés : Corrigé
Exercice 1. Zola et la presse
À partir des œuvres de Zola (corpus catégorisé)
1. Sélectionner en entrant dans Frantext la version catégorisée
2. Définir le corpus : par auteur seulement (« zola ») : 23 textes.
3. Rechercher dans les textes :
Objectif : On souhaite ramener les occurrences du nom presse au singulier et au pluriel (presse et presses).
Si on formule la requête comme une alternative : (presse | presses) on obtient des occurrences du nom presse
mais aussi du verbe presse. Il s'agit donc de "bruit" relativement à notre objectif. Cela tient au fait que presse
est ambigu du point de vue de la catégorie grammaticale. On doit donc formuler une requête qui tienne
compte de la catégorie syntaxique de presse la recherche de la graphie presse au singulier et au pluriel
quand c'est un Substantif :
&e(g=S c=&mpresse) nous donne le nombre d'occurrences (36 ) et ces occurrences en contexte.
4. Calculs de fréquences : répartition de la fréquence.
Vous rechercherez ensuite dans quel ouvrage le mot presse apparaît le plus souvent (remarquez que
cette fonctionnalité ne permet pas de restreindre la recherche à une catégorie syntaxique précise).
On demande les résultats référence par référence, dans l’ordre des fréquences décroissantes. N.B. : On ne
peut trier les occurrences par catégorie syntaxique. C’est dans Son Excellence Emile Rougon que la
fréquence relative et la fréquence absolue de presse sont les plus importantes.
5. Liste de mots : création manuelle d’une liste : presse, journaliste, journalistes, journal, journaux. On
sauvegarde la liste, en l’appelant « journaux » par exemple. Dans « calculs de fréquence » : répartition de la
fréquence, on demande dans la case 2 la liste « journaux », pour obtenir la fréquence des mots de la liste
qu’on vient de créer. Les résultats montrent que c’est dans l’Argent que les fréquences absolue et relative des
mots de la liste sont les plus importantes. Cependant, Son Excellence Emile Rougon, où le mot presse est le
plus fréquent, est bien placé (3ème position).
6. Pour rechercher les contextes où il est question à la fois de la presse et de la censure, on dispose d’une liste «
presse » ; on va créer manuellement une liste sur la censure (censure(s), censeur(s), censurer, censuré,
censurait, …). Dans « recherche dans les textes », « lancer une recherche », on saisit comme
séquence1 &lpresse ; comme séquence2 : &lcensure. Attention, pensez à préciser que ce n’est pas
forcément dans la même phrase que les mots des deux listes doivent apparaître mais dans un contexte élargi.
Linguistique informatique
A.Mela
------------------------------------------------------------------------------------
Exercice2.
Recherche d'une énumération d'adjectifs séparés par des virgules
Une telle énumération est la répétition d'une sous-expression de la forme ", &e(g=A)" (dans laquelle &e(g=A)
désigne un adjectif). Le quantifieur &+ placé devant un élément simple (comme dans l'expression &+ nous ),
signifie que cet élément peut se répéter une ou plusieurs fois. Placé devant un bloc parenthésé, il signifie que le
bloc peut se répéter une ou plusieurs fois. Par exemple &+(, &e(g=A)) signifie que la séquence "virgule adjectif" se répète.
L' expression :
&e(g=A) &+(, &e(g=A)) désigne une séquence d'au moins deux adjectifs. Un autre symbole de répétition,
noté &* existe également. Il a la même signification que &+, à l'exception du fait que la répétition peut se faire
zéro, une ou plusieurs fois. Ainsi &e(g=S) &* &e(g=A) désigne un substantif suivi éventuellement d'un ou
plusieurs adjectifs.
Téléchargement