Université Montpellier III/Licence SL/ Linguistique informatique A. Mela --------------------------------------------------------------------------------------------------------------------- Corrigé TD listes Exercice 1. Les mots commençant par patri. Consigne : Corpus de travail : les romans de 1800 à 1850. Menu Frantext/Corpus de travail/Définition du corpus de travail/Recherche dans un élément bibliographique/Combiner plusieurs éléments : Cliquez sur + (ou – ) dans le formulaire pour ajouter (ou enlever) un élément : le genre la date la date contient est après est avant roman 1800 1850 155 textes répondent au critère de recherche On vérifie que le sous-corpus est bien conforme à la consigne en faisant un tri par date (remarquez que la date de parution du texte est prise en compte et non sa date d'édition) et en vérifiant le genre du texte. Ajouter les textes sélectionnés au corpus de travail. a) Motif (critère de sélection ) permettant de générer les graphies commençant par patri : patri.+ b) La liste debpatri comporte 31 graphies. patria patriarcal patriarcale patriarcales patriarcalorama patriarcat patriarche patriarches patrice patriciat patricien patricienne patriciennes patriciens patrick patrie patriealla patries patrimoine patrimoines patrimonial patrimoniale patrimoniales patrimoniaux patriote patriotes patriotique patriotiquement patriotiques patriotisme patris c) Edition des listes existantes On sélectionne debpatri On enlève le mot patrick, qui est un nom propre, il reste 30 graphies dans la liste debpatri. d) Via la commande : Menu Principal/Recherche dans les textes/Recherche des mots d'une liste/Choix de la liste debpatri ou via Menu Principal/Recherche dans les textes puis saisie dans le formulaire de recherche du motif &ldebpatri. Dans les deux cas, on obtient 1148 résultats càd 1148 occurrences des mots de la liste debpatri en contexte : patrie, patriotisme,patricien, etc. Exercice 2. Les mots contenant strictement patri. On procède de même pour créer la liste contientpatri. Le critère de sélection est à présent : .+patri.+ a) Combien y a-t-il de graphies dans cette liste ? 21 b) On enlève les 4 graphies suivantes parce que leur rapport avec patrie est éloigné : *patrick (précédé de * : marque des N.propres sous Frantext) dissipatrice(s), émancipatrices. Il reste 17 graphies : compatriote compatriotes compatriotisme expatria expatriais expatriation expatriations expatrie expatrié expatriée expatrient expatrier expatrierai expatrièrent expatriés rapatriant rapatrier Université Montpellier III/Licence SL/ Linguistique informatique A. Mela --------------------------------------------------------------------------------------------------------------------- c) Il manque des mots sur cette liste. Par exemple le mot apatride (ce mot n'apparaît que vers 1920). d) Cherchez les occurrences des mots de cette liste dans le corpus : Comme en I.d) on active la commande : Menu Principal/Recherche dans les textes/Lancer une recherche ; la recherche de &lcontientpatri ramène 217 occurrences des mots de la liste contientpatri en contexte. Exercice 3. Mêmes questions sur le sous corpus des romans postérieurs à 1990 Menu Frantext/Corpus de travail/Définition du corpus de travail/Autres actions/Vider le corpus de travail Menu Frantext/Corpus de travail/Définition du corpus de travail/Recherche dans un élément bibliographique/Combiner plusieurs éléments : le genre contient roman la date est après 1990 Il y a 36 textes dans le corpus de travail La liste debpatri contient cette fois 23 graphies : patriarcal patriarcale patriarcat patriarcats patriarche patriarches patrice patricia patricienne patriciennes patriciens patrick patrie patries patrilinéaire patrimoine patriote patriotes patriotique patriotiquement patriotiques patriotisme patrizia On remarque que cette liste est sensiblement différente de la liste debpatri obtenue à partir du corpus 1800-1850 (sont en italiques les éléments distincts) La liste contientpatri est sensiblement différente de la liste contientpatri obtenue à partir du corpus 1800-1850 (cf. II.b) Elle contient cette fois 15 graphies, dont apatride : anticipatrice apatride apatrides compatriote compatriotes expatriation expatrier expatriés kirkpatrick rapatrié rapatriée rapatriement rapatrier rapatriés usurpatrice Exercice 4. Les formes fléchies de expatrier Corpus : les romans après 1990 : 36 textes On active la commande Listes/ création de liste par flexion, on saisit l'infinitif expatrier dans le formulaire et on enregistre la liste des graphies obtenues sous le nom expatrier. a) Cette liste contient 75 graphies. Attention : il s'agit d'une liste "théorique" de toutes les conjugaisons possibles de expatrier, indépendamment du corpus. On remarque que les graphies expatrié(e(s)) sont dans la liste des formes conjuguées du verbe puisqu'elles font partie des temps composés du verbe : ils ont été expatriés, elle s'est expatriée. b) 4 occurrences c) Il s'agit de 4 occurrences de 2 graphies : expatrier (2) expatriés (2). d) Les 2 occurrences suivantes du mot expatriés peuvent surprendre puisqu'il s'agit non de verbes mais de noms (substantifs). Certains de ces expatriés s'étaient déplacés en famille,[…] Les abords de celle-ci étaient gardés par des miliciens pré-pubères, armés jusqu'aux dents, qui tiraient à vue sur les expatriés […] Cela est dû au fait que la liste &cexpatrier est générée a priori (automatiquement, par flexion verbale du verbe du 1er groupe expatrier) et qu'une fois cette liste générée, l'analyseur "oublie" qu'il s'agit d'un verbe, et cherche à reconnaître dans les textes, toute occurrence des mots de cette liste, quelque soit leur nature. On pourra pallier à cela, dans la base catégorisée, en recherchant les occurrences qui sont catégorisées en tant que verbe. Université Montpellier III/Licence SL/ Linguistique informatique A. Mela --------------------------------------------------------------------------------------------------------------------- Exercice 5 : Graphies reconnues par un motif (dit ici critère de sélection) Le critère de sélection ch.+[^pt].r(a|ons) reconnaît : changera, chapitra, chasserons, chaudrons, chercherons, choléra mais ne reconnaît pas : chaperons, chanterons car ces mots comportent respectivement les caractères p et t à distance -2 du suffixe r(a|ons). Exercice 6. Liste de mots autour d'un thème sémantique On définit le corpus : auteur contient duras 14 textes dans la base intégrale On crée manuellement la liste sommeil en saisissant les codes : &csomnoler &mdormeur &mléthargique &mléthargie &mfatigué &mfatigue &cendormir &msommeil &cdormir Dans le formulaire de la commande Recherche dans les textes, on saisit &lsommeil. Il existe 649 occurrences des mots de la liste sommeil chez Duras. Exercice 7. Richesse lexicale d'un texte Pour ramener tout le vocabulaire d'un texte, il faut utiliser la commande Liste/ Création d'une liste, à partir des mots du corpus avec le critère de sélection :".+". Ensuite il faut diviser le nombre de graphies obtenu par la taille du corpus. Dans le texte de Sollers, il y a 151232 occurrences totales (Voir Menu/Corpus) et 14402 graphies différentes. Donc l'indice de la richesse lexicale est 14 402 / 151 232 = 0,095 Pour Le Clézio, il y a 151048 occurrences et 8294 graphies distinctes, donc l'indice de richesse lexicale est 0,0549. La plus grande richesse est ici celle du texte de Sollers.