Corrigé Frantext Base Catégorisée – Recherches dans les textes

publicité
Corrigé Frantext Base Catégorisée – Recherches dans les textes catégorisés
Exercice 1. Petit corpus quelconque (p.ex. les essais postérieurs à 1990)
1.
&e(g=S) : ramène les substantifs.
2.
&e(g=S c=fait) : ramène les occurrences de la graphie fait lorsqu'elles sont analysées comme Substantif.
3.
&e(g=S c=&mfait) : ramène les occurrences des graphies fait ou faits lorsqu'elles sont analysées comme Substantif.
4.
&e(g=V c=&cfaire) : ramène les occurrences des formes fléchies de faire lorsqu'elles sont analysées comme un
verbe. (On cherche à éliminer les occurrences de fait analysées Substantif).
Notez que &e(g=V c=&cfaire) ≠ &e(c=&cfaire)
5.
&e(g=P Per D) : ramène les occurrences de pronoms, pronoms personnels et déterminants.
6. ni &e(g!=A) ni &e(g!=A) : ramène les occurrences de constructions "ni x ni y" telles que ni dieu ni
maître, où x et y ne sont pas adjectifs.
7. .+ment pour créer la liste ment des graphies se terminant en ment puis
&e(g=Adv c=&lment) ramène les occurrences d'adverbes en ment.
8. .+[ae]mment, pour créer la liste mment des graphies se terminant (a|e)mment &e(g=Adv c=&lmment) ramène les occurrences d'adverbes en (a|e)mment.
Exercice 2. Dans Frantext catégorisé
1. Recherchez les adverbes se terminant par ons comme à reculons.
On crée la liste des graphies se terminant par ons via le critère ".+ons". On l'enregistre sous le nom ons.
On fait ensuite la recherche &e(g=Adv c=&lons)
2. Recherchez les constructions où une préposition est employée sans complément comme je vote pour, je fais
avec, Il tire des francs de sa poche et tape avec sur sa table :
&e(g=V Pr Ps Inf) &e(g=Pp) (.|,|;)
D'autres solutions peuvent être envisagées, il faudra alors les comparer en termes de "bruit" et de "silence".
(On verra ça en détail en Li3).
3. Quelles sont les variantes de comme de sa première chaussette/ comme de son premier biberon (dans les
tournures se ficher/se soucier…. comme de sa première chaussette :
comme de &q &mpremier &e(g=S)
Exercice 3. À partir des œuvres de Zola (corpus catégorisé)
1.
2.
Sélectionner en entrant dans Frantext la version catégorisée
Définir le corpus : par auteur seulement (« zola »)
3.
Rechercher dans les textes :
Objectif : On souhaite ramener les occurrences du nom presse au singulier et au pluriel (presse et presses). Si on formule la
requête comme une alternative : (presse | presses) on obtient des occurrences du nom presse mais aussi du verbe
presse. Il s'agit donc de "bruit" relativement à notre objectif. Cela tient au fait que presse est ambigu du point de vue de la
catégorie grammaticale. On doit donc formuler une requête qui tienne compte de la catégorie syntaxique de presse la
recherche de la graphie presse au singulier et au pluriel quand c'est un Substantif :
&e (g=S c=&mpresse) nous donne le nombre d'occurrences et ces occurrences en contexte.
4.
Calculs de fréquences : répartition de la fréquence. On demande les résultats référence par référence, dans l’ordre des
fréquences. N.B. : On ne peut trier les occurrences par catégorie syntaxique. C’est dans Son Excellence Emile Rougon que la
fréquence relative et la fréquence absolue de presse sont les plus importantes.
5.
Liste de mots : création manuelle d’une liste : presse, journaliste, journalistes, journal, journaux. On sauvegarde la liste,
en l’appelant « journaux » par exemple. Dans « calculs de fréquence » : répartition de la fréquence, on demande dans la case 2
la liste « journaux », pour obtenir la fréquence des mots de la liste qu’on vient de créer. Les résultats montrent que c’est dans
l’Argent que les fréquences absolue et relativedes mots de la liste sont les plus importantes. Cependant, Son Excellence Emile
Rougon, où le mot presse est le plus fréquent, est bien placé (3ème position).
6.
Pour rechercher les contextes où il est question à la fois de la presse et de la censure, on dipose d’une liste « presse » ; on va
créer manuellement une liste sur la censure (censure(s), censeur(s), censurer, censuré, censurait, …). Dans « recherche
dans les textes », « lancer une recherche », on saisit comme séquence1 &lpresse ; comme séquence2 : &lcensure.
Attention, pensez à préciser que ce n’est pas forcément dans la même phrase que les mots des deux listes doivent apparaître
mais dans un contexte élargi.
Exercice 4. Des requêtes linguistiques sur les romans de 1880 à 1890 (corpus catégorisé)
0. Sélection du corpus : par genre (romans) et par date (entre 1880 et 1890)
1. Recherche d’expressions du type avoir faim avoir honte, avoir envie Recherche dans les textes (lancer une recherche) : on
utilise les requêtes complexes, pour obtenir toutes les expressions construites sur le modèle avoir (avec toutes ses formes
fléchies) + Substantif. Il s'agit d'obtenir toutes les formes fléchies de « avoir », mais seulement les verbes (car des graphies
telles que aura peuvent ne pas être des verbes), et suivies d’un substantif non déterminé. Cette requête dans le langage de
requête du logiciel Stella s'exprime :
&e (g=V c=&cavoir) &e(g=S)
N.B. On obtient des expressions très diverses (avoir besoin, avoir lieu, avoir soin…).
Si on souhaite ramener également des variantes telles avoir très faim, il faut autoriser la présence d'un adverbe optionnel :
&e (g=V c=&cavoir) &?&e(g=Adv) &e(g=S)
On obtient un peu de bruit (ex : pour qu’il y ait identité).
Il reste également du silence car notre requête ne permet pas d’obtenir les cas où on a deux adverbes , comme par exemple
dans avoir vraiment très faim. On peut tester alors :
&e (g=V c=&cavoir) &*&e (g=Adv) &e(g=S)
1'. Recherchez dans un sous corpus restreint les locutions verbales telles que faire peur, donner soif, faire
scandale où le complément du verbe support a la particularité d'être non déterminé :
&e(g=V Inf Pr Ps c!=&cêtre) &e(g=S)
On ramènera des locutions telles que : prendre place, faire place, perdre patience, faire merveille, avoir
affaire, faire plaisir, rendre compte, avoir besoin, lâcher pied, etc.
Est-il vrai que pour ces locutions, l'emploi d'un adjectif force la présence d'un déterminant?
Nous ferons la démonstration sur le cas particulier de faire peur. La présence d'un adjectif avant ou après
peur , est prise en compte dans le motif suivant :
&e(g=V Inf Pr Ps c=&cfaire) &q(0,1)(&e(g=A) peur |peur &e(g=A))
La recherche de ce motif ramène les résultats ci-dessous , lesquels établissent que présence d'adjectif =>
présence d'un déterminant : .
Cela me faisait une peur affreuse,
font une peur atroce aux bourgeois
-vous m' avez fait une belle peur !
nous fasse la moindre peur, une jolie peur
Exceptions :
Avec l'adjectif grande toutefois, il y a rarement un déterminant : me faisait grand peur
Idem pour l'adjectif pareille : Tu devrais avoir honte de faire pareille peur à cette pauvre Zinah !
La même démarche peut s'appliquer aux autres locutions.
2.Recherche de constructions impersonnelles du type :
-il est agréable de partir, soit : il impersonnel + verbe être avec toutes ses formes fléchies + adjectif masculin singulier + de
ou d’ + verbe à l’infinitif
-il est évident qu’il partira : idem au départ, mais que ou qu’ + verbe conjugué
Commençons par le premier type d’expression :
il &cêtre &e(g=A) (de|d’)&e (g=Inf)
On peut améliorer notre requête pour obtenir les cas où on a des mots entre le verbe et l’adjectif (ex : il est fort agréable
de…), ou entre de et l’infinitif (ex : il est difficile de ne pas douter…) :
il &cêtre &q(0,2) &e(g=A) (de|d’) &q(0,4) &e (g=Inf)
Procédons de même pour les construction avec que ou qu’ + verbe conjugué en tenant compte directement des cas où des
mots peuvent se trouver entre être et l’adjectif d’une part, entre que et le verbe conjugué d’autre part.
il &cêtre &q(0,2) &e(g=A) (que|qu’) &q(0,4) &e (g=V)
On peut alors utiliser les disjonctions pour demander au logiciel de relever dans le corpus soit les constructions
impersonnelles en de+ infinitif, soit celles en que+ verbe conjugué.
il &cêtre &q(0,2) &e(g=A) ((de|d’) &q(0,4) &e (g=Inf)|(que|qu’) &q(0,4) &e (g=V))
N.B. Avec ces requêtes sur les constructions impersonnelles, on obtient du bruit, dans les cas où il n’est pas un il
impersonnel:
Ex : il n' acheta pas de vers de vase qu' il était sûr de trouver partout
Notons que ce bruit lié au statut du il (personnel ou impersonnel) peut venir dans certains cas du nombre de mots qu’on
autorise entre de ou que et le verbe :
Ex : il est aussi mince que moi ! Dit Nana en le prenant par la taille
De manière générale on peut dire que pour diminuer bruit et silence, on procède par essais et erreurs.
Cela dépend aussi de l’objectif de la recherche sur corpus : par exemple, est-ce qu’on veut obtenir toutes les expressions
demandées, quitte à avoir du bruit ? ou pour limiter le bruit (occurrences non pertinentes) , accepte-t-on le silence
(occurrences pertinentes non ramenées) ?
_
_
Exercice 5. Recherche d'une énumération d'adjectifs séparés par des virgules
Une telle énumération est la répétition d'une sous-expression de la forme ", &e(g=A)" (dans laquelle &e(g=A)
désigne un adjectif). Le quantifieur &+ placé devant un élément simple (comme dans l'expression &+ nous ),
signifie que cet élément peut se répéter une ou plusieurs fois. Placé devant un bloc parenthésé, il signifie que
c'est tout le bloc qui peut se répéter une ou plusieurs fois. Par exemple &+(, &e(g=A)) signifie que la séquence
"virgule - adjectif" se répète. L' expression :
&e(g=A) &+(, &e(g=A)) désigne une séquence d'au moins deux adjectifs. Un autre symbole de répétition,
noté &* existe également. Il a la même signification que &+, à l'exception du fait que la répétition peut se faire
zéro, une ou plusieurs fois. Ainsi &e(g=S) &* &e(g=A) désigne un substantif suivi éventuellement d'un ou
plusieurs adjectifs.
Exercice 6. Caractères spéciaux et déspécialisation
Recherchez les contextes contenant des passages entre parenthèses.
On rappelle que dans le langage de requêtes les parenthèses sont des caractère s spéciaux, et que, donc, si l'on
veut rechercher une parenthèse en tant que caractère ordinaire, il faut la déspécialiser, càd la faire précéder du
caractère "\" ).
On serait tenté d'écrire l'expression :
\( &+^\) \)
Cependant, cette expression présente un défaut, car elle part du préjugé que le texte est lu de la gauche vers la
droite. Or le logiciel Stella applique des algorithmes complexes d'optimisation qui l'amènent à lire
indifféremment dans les deux sens. Si, lors de la recherche de l'expression ci-dessus, la lecture se fait de la
gauche vers la droite, tout se passera bien. En revanche, si la lecture se fait de la droite vers la gauche, le logiciel
partira de la parenthèse fermante, puis se propagera vers la gauche tant qu'il ne rencontrera pas de parenthèse
fermante. Il passera donc "au-dessus" de la parenthèse ouvrante. Pour empêcher se problème de survenir, il
convient donc de veiller à éviter une propagation incontrôlée dans un sens comma dans l'autre. La solution
consiste à écrire l'expression sous la forme :
\( &+^( \( | \) ) \)
qui arrête la propagation dès qu'une parenthèse ouvrante ou fermante est rencontrée. Dans le cas où le texte
contiendrait une parenthèse ouvrante/fermante sans fermante/ouvrante correspondante dans son voisinage, Stella
arrête automatiquement la propagation au bout de cent répétitions.
Exercice 7
Trouvez les phrases qui contiennent une séquence répétitive du genre en..., en ..., en .... etc. ... désignant une
suite de mots quelconques à l'exclusion d'une virgule. Par ex. en flânant, en ne se pressant pas, en s'amusant
etc.).
Il prend grand soin du verre, en connaît la fragilité, en aime la parfaite transparence.
La sous-expression qui se répète peut s'écrire :
en &+^,
Cependant, cette sous expression n'est bornée à droite que par la prochaine apparition d'une virgule. Elle peut
donc outrepasser le point final de phrase, ce que nous ne voulons pas. Afin d'éviter ceci, il suffit de réécrire la
sous expression sous la forme :
en &+^(,|.).
En ajoutant le symbole de répétition, ceci devient :
&+(, en &+^(,|.))
En rajoutant devant cette expression le "en ..." initial, ou aboutit à la requête :
en &+^(,|.) &+(, en &+^(,|.))
&e(g=Ger) &+^(,|.) &+(, &e(g=Ger)
&+^(,|.))
désigne une suite de gérondifs telle que :
En la partageant, en l'exprimant, il la rendait humaine ;
La barque rapide heurta cette espèce de bélier improvisé, les hommes lâchèrent prise, quatre d'entre eux valsèrent
dans les eaux en tumulte mais réussirent à s'accrocher aux poteaux et aux pontons encore à l'attache, en se
cognant, en criant, en avalant les flots boueux, mais le projectile dériva et versa contre l'île.
mais, pour préserver le nom de son patient et partenaire, il prit les mesures nécessaires, en surveillant la
circulation des fiches et des analyses qui reliaient ce nom célèbre au nom de cette nouvelle maladie, en les
truquant et en les censurant, pour que le secret soit colmaté jusqu'au bout, lui laissant jusqu'à sa mort les coudées
franches
Ilaimait rester seul en écrivant des lettres, en téléphonant, en riant aux éclats, et en écrivant encore des lettres, et
en en recevant, et en téléphonant, et en rencontrant des gens qui le laissaient excité et parfaitement seul.
Téléchargement