Corrigé TD listes Exercice 1. Les mots commençant par patri

publicité
Université Montpellier III/Licence SL/ Linguistique informatique
A. Mela
---------------------------------------------------------------------------------------------------------------------
Corrigé TD listes
Exercice 1. Les mots commençant par patri.
Consigne : Corpus de travail : les romans de 1800 à 1850.
Menu Frantext/Corpus de travail/Définition du corpus de travail/Recherche dans un élément bibliographique/Combiner
plusieurs éléments :
Cliquez sur + (ou – ) dans le formulaire pour ajouter (ou enlever) un élément :
le genre
la date
la date
contient
est après
est avant
roman
1800
1850
155 textes répondent au critère de recherche
On vérifie que le sous-corpus est bien conforme à la consigne en faisant un tri par date (remarquez que la date de parution
du texte est prise en compte et non sa date d'édition) et en vérifiant le genre du texte.
Ajouter les textes sélectionnés au corpus de travail.
a) Motif (critère de sélection ) permettant de générer les graphies commençant par patri :
patri.+
b) La liste debpatri comporte 31 graphies.
patria
patriarcal
patriarcale
patriarcales
patriarcalorama
patriarcat
patriarche
patriarches
patrice
patriciat
patricien
patricienne
patriciennes
patriciens
patrick
patrie
patriealla
patries
patrimoine
patrimoines
patrimonial
patrimoniale
patrimoniales
patrimoniaux
patriote
patriotes
patriotique
patriotiquement
patriotiques
patriotisme
patris
c) Edition des listes existantes
On sélectionne debpatri
On enlève le mot patrick, qui est un nom propre, il reste 30 graphies dans la liste debpatri.
d) Via la commande : Menu Principal/Recherche dans les textes/Recherche des mots d'une liste/Choix de la liste
debpatri
ou via
Menu Principal/Recherche dans les textes puis saisie dans le formulaire de recherche du motif &ldebpatri.
Dans les deux cas, on obtient 1148 résultats càd 1148 occurrences des mots de la liste debpatri en contexte : patrie,
patriotisme,patricien, etc.
Exercice 2. Les mots contenant strictement patri.
On procède de même pour créer la liste contientpatri.
Le critère de sélection est à présent : .+patri.+
a) Combien y a-t-il de graphies dans cette liste ? 21
b) On enlève les 4 graphies suivantes parce que leur rapport avec patrie est éloigné :
*patrick (précédé de * : marque des N.propres sous Frantext)
dissipatrice(s), émancipatrices.
Il reste 17 graphies :
compatriote
compatriotes
compatriotisme
expatria
expatriais
expatriation
expatriations
expatrie
expatrié
expatriée
expatrient
expatrier
expatrierai
expatrièrent
expatriés
rapatriant
rapatrier
Université Montpellier III/Licence SL/ Linguistique informatique
A. Mela
---------------------------------------------------------------------------------------------------------------------
c) Il manque des mots sur cette liste. Par exemple le mot apatride (ce mot n'apparaît que vers 1920).
d) Cherchez les occurrences des mots de cette liste dans le corpus : Comme en I.d) on active la commande : Menu
Principal/Recherche dans les textes/Lancer une recherche ; la recherche de &lcontientpatri ramène 217 occurrences
des mots de la liste contientpatri en contexte.
Exercice 3. Mêmes questions sur le sous corpus des romans postérieurs à 1990
Menu Frantext/Corpus de travail/Définition du corpus de travail/Autres actions/Vider le corpus de travail
Menu Frantext/Corpus de travail/Définition du corpus de travail/Recherche dans un élément bibliographique/Combiner
plusieurs éléments :
le genre
contient
roman
la date
est après
1990
Il y a 36 textes dans le corpus de travail
La liste debpatri contient cette fois 23 graphies :
patriarcal
patriarcale
patriarcat
patriarcats
patriarche
patriarches
patrice
patricia
patricienne
patriciennes
patriciens
patrick
patrie
patries
patrilinéaire
patrimoine
patriote
patriotes
patriotique
patriotiquement
patriotiques
patriotisme
patrizia
On remarque que cette liste est sensiblement différente de la liste debpatri obtenue à partir du corpus 1800-1850 (sont en
italiques les éléments distincts)
La liste contientpatri est sensiblement différente de la liste contientpatri obtenue à partir du corpus 1800-1850 (cf. II.b)
Elle contient cette fois 15 graphies, dont apatride :
anticipatrice
apatride
apatrides
compatriote
compatriotes
expatriation
expatrier
expatriés
kirkpatrick
rapatrié
rapatriée
rapatriement
rapatrier
rapatriés
usurpatrice
Exercice 4. Les formes fléchies de expatrier
Corpus : les romans après 1990 : 36 textes
On active la commande Listes/ création de liste par flexion, on saisit l'infinitif expatrier dans le formulaire et on enregistre
la liste des graphies obtenues sous le nom expatrier.
a) Cette liste contient 75 graphies.
Attention : il s'agit d'une liste "théorique" de toutes les conjugaisons possibles de expatrier, indépendamment du
corpus.
On remarque que les graphies expatrié(e(s)) sont dans la liste des formes conjuguées du verbe puisqu'elles font partie des
temps composés du verbe : ils ont été expatriés, elle s'est expatriée.
b) 4 occurrences
c) Il s'agit de 4 occurrences de 2 graphies : expatrier (2) expatriés (2).
d) Les 2 occurrences suivantes du mot expatriés peuvent surprendre puisqu'il s'agit non de verbes mais de noms
(substantifs).
Certains de ces expatriés s'étaient déplacés en famille,[…]
Les abords de celle-ci étaient gardés par des miliciens pré-pubères, armés jusqu'aux dents, qui tiraient à vue sur les
expatriés […]
Cela est dû au fait que la liste &cexpatrier est générée a priori (automatiquement, par flexion verbale du verbe du
1er groupe expatrier) et qu'une fois cette liste générée, l'analyseur "oublie" qu'il s'agit d'un verbe, et cherche à reconnaître
dans les textes, toute occurrence des mots de cette liste, quelque soit leur nature. On pourra pallier à cela, dans la base
catégorisée, en recherchant les occurrences qui sont catégorisées en tant que verbe.
Université Montpellier III/Licence SL/ Linguistique informatique
A. Mela
---------------------------------------------------------------------------------------------------------------------
Exercice 5 : Graphies reconnues par un motif (dit ici critère de sélection)
Le critère de sélection ch.+[^pt].r(a|ons) reconnaît :
changera, chapitra, chasserons, chaudrons, chercherons, choléra
mais ne reconnaît pas :
chaperons, chanterons
car ces mots comportent respectivement les caractères p et t à distance -2 du suffixe r(a|ons).
Exercice 6. Liste de mots autour d'un thème sémantique
On définit le corpus :
auteur
contient
duras
14 textes dans la base intégrale
On crée manuellement la liste sommeil en saisissant les codes :
&csomnoler
&mdormeur
&mléthargique
&mléthargie
&mfatigué
&mfatigue
&cendormir
&msommeil
&cdormir
Dans le formulaire de la commande Recherche dans les textes, on saisit &lsommeil.
Il existe 649 occurrences des mots de la liste sommeil chez Duras.
Exercice 7. Richesse lexicale d'un texte
Pour ramener tout le vocabulaire d'un texte, il faut utiliser la commande Liste/ Création d'une liste, à partir des mots du
corpus avec le critère de sélection :".+".
Ensuite il faut diviser le nombre de graphies obtenu par la taille du corpus.
Dans le texte de Sollers, il y a 151232 occurrences totales (Voir Menu/Corpus) et 14402 graphies différentes. Donc
l'indice de la richesse lexicale est 14 402 / 151 232 = 0,095
Pour Le Clézio, il y a 151048 occurrences et 8294 graphies distinctes, donc l'indice de richesse lexicale est 0,0549.
La plus grande richesse est ici celle du texte de Sollers.
Téléchargement