Corrigé Frantext Base Catégorisée – Recherches dans les textes catégorisés Exercice 1. Petit corpus quelconque (p.ex. les essais postérieurs à 1990) 1. &e(g=S) : ramène les substantifs. 2. &e(g=S c=fait) : ramène les occurrences de la graphie fait lorsqu'elles sont analysées comme Substantif. 3. &e(g=S c=&mfait) : ramène les occurrences des graphies fait ou faits lorsqu'elles sont analysées comme Substantif. 4. &e(g=V c=&cfaire) : ramène les occurrences des formes fléchies de faire lorsqu'elles sont analysées comme un verbe. (On cherche à éliminer les occurrences de fait analysées Substantif). Notez que &e(g=V c=&cfaire) ≠ &e(c=&cfaire) 5. &e(g=P Per D) : ramène les occurrences de pronoms, pronoms personnels et déterminants. 6. ni &e(g!=A) ni &e(g!=A) : ramène les occurrences de constructions "ni x ni y" telles que ni dieu ni maître, où x et y ne sont pas adjectifs. 7. .+ment pour créer la liste ment des graphies se terminant en ment puis &e(g=Adv c=&lment) ramène les occurrences d'adverbes en ment. 8. .+[ae]mment, pour créer la liste mment des graphies se terminant (a|e)mment &e(g=Adv c=&lmment) ramène les occurrences d'adverbes en (a|e)mment. Exercice 2. Dans Frantext catégorisé 1. Recherchez les adverbes se terminant par ons comme à reculons. On crée la liste des graphies se terminant par ons via le critère ".+ons". On l'enregistre sous le nom ons. On fait ensuite la recherche &e(g=Adv c=&lons) 2. Recherchez les constructions où une préposition est employée sans complément comme je vote pour, je fais avec, Il tire des francs de sa poche et tape avec sur sa table : &e(g=V Pr Ps Inf) &e(g=Pp) (.|,|;) D'autres solutions peuvent être envisagées, il faudra alors les comparer en termes de "bruit" et de "silence". (On verra ça en détail en Li3). 3. Quelles sont les variantes de comme de sa première chaussette/ comme de son premier biberon (dans les tournures se ficher/se soucier…. comme de sa première chaussette : comme de &q &mpremier &e(g=S) Exercice 3. À partir des œuvres de Zola (corpus catégorisé) 1. 2. Sélectionner en entrant dans Frantext la version catégorisée Définir le corpus : par auteur seulement (« zola ») 3. Rechercher dans les textes : Objectif : On souhaite ramener les occurrences du nom presse au singulier et au pluriel (presse et presses). Si on formule la requête comme une alternative : (presse | presses) on obtient des occurrences du nom presse mais aussi du verbe presse. Il s'agit donc de "bruit" relativement à notre objectif. Cela tient au fait que presse est ambigu du point de vue de la catégorie grammaticale. On doit donc formuler une requête qui tienne compte de la catégorie syntaxique de presse la recherche de la graphie presse au singulier et au pluriel quand c'est un Substantif : &e (g=S c=&mpresse) nous donne le nombre d'occurrences et ces occurrences en contexte. 4. Calculs de fréquences : répartition de la fréquence. On demande les résultats référence par référence, dans l’ordre des fréquences. N.B. : On ne peut trier les occurrences par catégorie syntaxique. C’est dans Son Excellence Emile Rougon que la fréquence relative et la fréquence absolue de presse sont les plus importantes. 5. Liste de mots : création manuelle d’une liste : presse, journaliste, journalistes, journal, journaux. On sauvegarde la liste, en l’appelant « journaux » par exemple. Dans « calculs de fréquence » : répartition de la fréquence, on demande dans la case 2 la liste « journaux », pour obtenir la fréquence des mots de la liste qu’on vient de créer. Les résultats montrent que c’est dans l’Argent que les fréquences absolue et relativedes mots de la liste sont les plus importantes. Cependant, Son Excellence Emile Rougon, où le mot presse est le plus fréquent, est bien placé (3ème position). 6. Pour rechercher les contextes où il est question à la fois de la presse et de la censure, on dipose d’une liste « presse » ; on va créer manuellement une liste sur la censure (censure(s), censeur(s), censurer, censuré, censurait, …). Dans « recherche dans les textes », « lancer une recherche », on saisit comme séquence1 &lpresse ; comme séquence2 : &lcensure. Attention, pensez à préciser que ce n’est pas forcément dans la même phrase que les mots des deux listes doivent apparaître mais dans un contexte élargi. Exercice 4. Des requêtes linguistiques sur les romans de 1880 à 1890 (corpus catégorisé) 0. Sélection du corpus : par genre (romans) et par date (entre 1880 et 1890) 1. Recherche d’expressions du type avoir faim avoir honte, avoir envie Recherche dans les textes (lancer une recherche) : on utilise les requêtes complexes, pour obtenir toutes les expressions construites sur le modèle avoir (avec toutes ses formes fléchies) + Substantif. Il s'agit d'obtenir toutes les formes fléchies de « avoir », mais seulement les verbes (car des graphies telles que aura peuvent ne pas être des verbes), et suivies d’un substantif non déterminé. Cette requête dans le langage de requête du logiciel Stella s'exprime : &e (g=V c=&cavoir) &e(g=S) N.B. On obtient des expressions très diverses (avoir besoin, avoir lieu, avoir soin…). Si on souhaite ramener également des variantes telles avoir très faim, il faut autoriser la présence d'un adverbe optionnel : &e (g=V c=&cavoir) &?&e(g=Adv) &e(g=S) On obtient un peu de bruit (ex : pour qu’il y ait identité). Il reste également du silence car notre requête ne permet pas d’obtenir les cas où on a deux adverbes , comme par exemple dans avoir vraiment très faim. On peut tester alors : &e (g=V c=&cavoir) &*&e (g=Adv) &e(g=S) 1'. Recherchez dans un sous corpus restreint les locutions verbales telles que faire peur, donner soif, faire scandale où le complément du verbe support a la particularité d'être non déterminé : &e(g=V Inf Pr Ps c!=&cêtre) &e(g=S) On ramènera des locutions telles que : prendre place, faire place, perdre patience, faire merveille, avoir affaire, faire plaisir, rendre compte, avoir besoin, lâcher pied, etc. Est-il vrai que pour ces locutions, l'emploi d'un adjectif force la présence d'un déterminant? Nous ferons la démonstration sur le cas particulier de faire peur. La présence d'un adjectif avant ou après peur , est prise en compte dans le motif suivant : &e(g=V Inf Pr Ps c=&cfaire) &q(0,1)(&e(g=A) peur |peur &e(g=A)) La recherche de ce motif ramène les résultats ci-dessous , lesquels établissent que présence d'adjectif => présence d'un déterminant : . Cela me faisait une peur affreuse, font une peur atroce aux bourgeois -vous m' avez fait une belle peur ! nous fasse la moindre peur, une jolie peur Exceptions : Avec l'adjectif grande toutefois, il y a rarement un déterminant : me faisait grand peur Idem pour l'adjectif pareille : Tu devrais avoir honte de faire pareille peur à cette pauvre Zinah ! La même démarche peut s'appliquer aux autres locutions. 2.Recherche de constructions impersonnelles du type : -il est agréable de partir, soit : il impersonnel + verbe être avec toutes ses formes fléchies + adjectif masculin singulier + de ou d’ + verbe à l’infinitif -il est évident qu’il partira : idem au départ, mais que ou qu’ + verbe conjugué Commençons par le premier type d’expression : il &cêtre &e(g=A) (de|d’)&e (g=Inf) On peut améliorer notre requête pour obtenir les cas où on a des mots entre le verbe et l’adjectif (ex : il est fort agréable de…), ou entre de et l’infinitif (ex : il est difficile de ne pas douter…) : il &cêtre &q(0,2) &e(g=A) (de|d’) &q(0,4) &e (g=Inf) Procédons de même pour les construction avec que ou qu’ + verbe conjugué en tenant compte directement des cas où des mots peuvent se trouver entre être et l’adjectif d’une part, entre que et le verbe conjugué d’autre part. il &cêtre &q(0,2) &e(g=A) (que|qu’) &q(0,4) &e (g=V) On peut alors utiliser les disjonctions pour demander au logiciel de relever dans le corpus soit les constructions impersonnelles en de+ infinitif, soit celles en que+ verbe conjugué. il &cêtre &q(0,2) &e(g=A) ((de|d’) &q(0,4) &e (g=Inf)|(que|qu’) &q(0,4) &e (g=V)) N.B. Avec ces requêtes sur les constructions impersonnelles, on obtient du bruit, dans les cas où il n’est pas un il impersonnel: Ex : il n' acheta pas de vers de vase qu' il était sûr de trouver partout Notons que ce bruit lié au statut du il (personnel ou impersonnel) peut venir dans certains cas du nombre de mots qu’on autorise entre de ou que et le verbe : Ex : il est aussi mince que moi ! Dit Nana en le prenant par la taille De manière générale on peut dire que pour diminuer bruit et silence, on procède par essais et erreurs. Cela dépend aussi de l’objectif de la recherche sur corpus : par exemple, est-ce qu’on veut obtenir toutes les expressions demandées, quitte à avoir du bruit ? ou pour limiter le bruit (occurrences non pertinentes) , accepte-t-on le silence (occurrences pertinentes non ramenées) ? _ _ Exercice 5. Recherche d'une énumération d'adjectifs séparés par des virgules Une telle énumération est la répétition d'une sous-expression de la forme ", &e(g=A)" (dans laquelle &e(g=A) désigne un adjectif). Le quantifieur &+ placé devant un élément simple (comme dans l'expression &+ nous ), signifie que cet élément peut se répéter une ou plusieurs fois. Placé devant un bloc parenthésé, il signifie que c'est tout le bloc qui peut se répéter une ou plusieurs fois. Par exemple &+(, &e(g=A)) signifie que la séquence "virgule - adjectif" se répète. L' expression : &e(g=A) &+(, &e(g=A)) désigne une séquence d'au moins deux adjectifs. Un autre symbole de répétition, noté &* existe également. Il a la même signification que &+, à l'exception du fait que la répétition peut se faire zéro, une ou plusieurs fois. Ainsi &e(g=S) &* &e(g=A) désigne un substantif suivi éventuellement d'un ou plusieurs adjectifs. Exercice 6. Caractères spéciaux et déspécialisation Recherchez les contextes contenant des passages entre parenthèses. On rappelle que dans le langage de requêtes les parenthèses sont des caractère s spéciaux, et que, donc, si l'on veut rechercher une parenthèse en tant que caractère ordinaire, il faut la déspécialiser, càd la faire précéder du caractère "\" ). On serait tenté d'écrire l'expression : \( &+^\) \) Cependant, cette expression présente un défaut, car elle part du préjugé que le texte est lu de la gauche vers la droite. Or le logiciel Stella applique des algorithmes complexes d'optimisation qui l'amènent à lire indifféremment dans les deux sens. Si, lors de la recherche de l'expression ci-dessus, la lecture se fait de la gauche vers la droite, tout se passera bien. En revanche, si la lecture se fait de la droite vers la gauche, le logiciel partira de la parenthèse fermante, puis se propagera vers la gauche tant qu'il ne rencontrera pas de parenthèse fermante. Il passera donc "au-dessus" de la parenthèse ouvrante. Pour empêcher se problème de survenir, il convient donc de veiller à éviter une propagation incontrôlée dans un sens comma dans l'autre. La solution consiste à écrire l'expression sous la forme : \( &+^( \( | \) ) \) qui arrête la propagation dès qu'une parenthèse ouvrante ou fermante est rencontrée. Dans le cas où le texte contiendrait une parenthèse ouvrante/fermante sans fermante/ouvrante correspondante dans son voisinage, Stella arrête automatiquement la propagation au bout de cent répétitions. Exercice 7 Trouvez les phrases qui contiennent une séquence répétitive du genre en..., en ..., en .... etc. ... désignant une suite de mots quelconques à l'exclusion d'une virgule. Par ex. en flânant, en ne se pressant pas, en s'amusant etc.). Il prend grand soin du verre, en connaît la fragilité, en aime la parfaite transparence. La sous-expression qui se répète peut s'écrire : en &+^, Cependant, cette sous expression n'est bornée à droite que par la prochaine apparition d'une virgule. Elle peut donc outrepasser le point final de phrase, ce que nous ne voulons pas. Afin d'éviter ceci, il suffit de réécrire la sous expression sous la forme : en &+^(,|.). En ajoutant le symbole de répétition, ceci devient : &+(, en &+^(,|.)) En rajoutant devant cette expression le "en ..." initial, ou aboutit à la requête : en &+^(,|.) &+(, en &+^(,|.)) &e(g=Ger) &+^(,|.) &+(, &e(g=Ger) &+^(,|.)) désigne une suite de gérondifs telle que : En la partageant, en l'exprimant, il la rendait humaine ; La barque rapide heurta cette espèce de bélier improvisé, les hommes lâchèrent prise, quatre d'entre eux valsèrent dans les eaux en tumulte mais réussirent à s'accrocher aux poteaux et aux pontons encore à l'attache, en se cognant, en criant, en avalant les flots boueux, mais le projectile dériva et versa contre l'île. mais, pour préserver le nom de son patient et partenaire, il prit les mesures nécessaires, en surveillant la circulation des fiches et des analyses qui reliaient ce nom célèbre au nom de cette nouvelle maladie, en les truquant et en les censurant, pour que le secret soit colmaté jusqu'au bout, lui laissant jusqu'à sa mort les coudées franches Ilaimait rester seul en écrivant des lettres, en téléphonant, en riant aux éclats, et en écrivant encore des lettres, et en en recevant, et en téléphonant, et en rencontrant des gens qui le laissaient excité et parfaitement seul.