1
Ressources linguistiques
M1
TP 5. Requêtes avec Unitex
Dans cette séance, nous voyons comment rechercher des motifs complexes dans du texte à
l'aide d'expressions régulières puis à l'aide de graphes. La recherche d'expressions régulières
est détaillée dans le chapitre 4 du manuel Unitex.
Rappel de cours
Une expression rationnelle peut avoir une des 5 formes suivantes :
AB : concaténation des expressions rationnelles A et B ;
A+B : disjonction (= union) des expressions rationnelles A et B ;
A∗ : étoile de Kleene (concaténation 0, une ou plusieurs fois) de l'expression rationnelle A ;
(A) : expression rationnelle A ;
xyz : séquence de symboles de l'alphabet.
Exercice 1. Expressions régulières
Recherchez dans le roman Le tour du monde en 80 jours les motifs suivants :
1.1. toutes les occurrences des pronoms personnels (je, tu, il...) ;
1.2. toutes les occurrences des pronoms personnels qui sont suivies par un verbe ;
1.3. toutes les suites d'au moins 3 adjectifs ;
1.4. toutes les suites de noms. La requête <N>* produit des résultats erronés parce qu'elle
inclut le mot vide (cf. section 4.6 du manuel). Que faire pour éviter cette erreur ?
Exercice 2. Masques lexicaux référant au contenu des dictionnaires
Les tableaux de la section 3.1.3 du manuel présentent une liste non exhaustive des codes de
catégories que vous pourrez utiliser dans vos expressions régulières, respectivement : les
codes grammaticaux (tableau 3.1), les codes sémantiques (tableau 3.2) et les codes flexionnels
(tableau 3.3). À l'aide de ces codes, recherchez les motifs suivants dans le texte :
(a) tous les adjectifs au féminin pluriel
(b) toutes les formes fléchies du verbe parler aux 1e et 3e personnes du singulier
(c) le motif <V:P3p>. À quoi correspond-il ?
(d) tous les noms ayant le trait sémantique concret
(e) tous les noms ayant le trait sémantique humain collectif
(f) tous les verbes un peu ou très spécialisés, soit au participe passé, soit à l'infinitif
(g) tous les adjectifs qui ne sont pas très spécialisés
(h) tous les déterminants numéraux (en toutes lettres)
Exercice 3. Masques lexicaux spéciaux
Consultez la section 4.3.1. du manuel pour savoir ce que signifient les masques lexicaux <NB>,
<MOT>, <MIN>, <MAJ>, <PRE> et <DIC>. À l'aide de ces codes, recherchez les motifs suivants
dans le texte :
(a) tous les mots qui ne sont pas dans le dictionnaire
(b) tous les mots qui ne sont pas écrits tout en minuscules