Linguistique informatique Mémo-Frantext
---------------------------------------------------------------------------------
1
Eléments pouvant entrer dans la composition d'un motif de recherche de
séquences de mots :
- Une grahie donnée
- (Choix1 | Choix2 | ... | Choixn ) (avec possibité d'imbriquer à volonté)
- &caimer : forme conjuguée de aimer
- &mcheval : forme fléchie de substantif, adjectif ou participe d'un verbe
- &lxxx désigne un des mots de la liste xxx
- &? opérateur d'optionnalité : Ex. un &?grand homme ou un &?(très grand) homme
- &q(n1,n2) désigne une suite de de n1 à n2 mots, n2-n1<=7.
- &q =&q(1,1)
- &e(g=X) : entité catégorisée X
- &e(g=X Y Z) : entité de catégorie X Y ou Z
- &e(g !=X) entité de catégorie autre que X
- &e(c= Y) entité contenant ou égale à la graphie Y
- &e(c!=Y) entité ne contenant pas la graphie Y
- &e(g=X c=Y) :entité catégorisée X et contenant ou égale à la graphie Y
- le symbole de négation ^ Ex: homme ^très grand : ^très désigne une graphie autre que
très
.
- le symbole de répétition &+ (une ou plusieur fois)
- le symbole de répétition &* (zéro, une, ou plusieur fois)
Eléments pouvant entrer dans la composition de liste de graphies
Le critère de sélection permet de définir une liste de graphies extraites du corpus de travail et
conformes au critère. Par ex., le critère .*ismes? permet de créer la liste des mots se
terminant par
isme
ou ismes
.
La syntaxe générale d'un critère est la suivante :
. (point) désigne n'importe quel caractère. Ex. : .oule sélectionnera les mots
boule, coule, foule
,
etc.
[abcd] désigne un caractère qui est soit a, soit b, soit c, soit d. Ex. : coule[sr] sélectionnera les
mots
coule
s ou
couler
.
[^abcd] désigne un caractère quelconquedifférent de a ,b,c ou d. Ex. : [^cr]oule sélectionnera
les mots
foule, houle, poule
, etc. mais pas
coule
ni
roule
.
Les parenthèses servent à délimiter un groupe de caractères. Un groupe peut être subdivisé en
plusieurs sous-groupes par le symbole |. Ce symbole signifie qu'il y a alternative.Ex. :
cheva(l|ux) sélectionnera
cheval
ou
chevaux
.
Les parenthèses peuvent être imbriquées à plusieurs niveaux :
Ex. (crainti(f|ve)|peureu(x|se)) sélectionnera
craintif, craintive, peureux, peureuse
.
Symboles de quantification :
Le symbole * suivant un caractère ou un groupe signifie que ce caractère ou groupe peut être
absent ou se répéter un nombre quelconque de fois.
Ex. : .*form.* sélectionnera les mots contenant la chaîne "form" tels que
formée,
réforme, informel
etc. ;
bla(bla)* sélectionnera
bla, blabla, blablabla
, ...
Le symbole + suivant un caractère ou un groupe signifie que ce caractère ou groupe peut se
répéter un nombre non nul de fois.
Ex. : .+form.* sélectionnera les mots contenant la chaîne "form" précédée d'au moins un
caractère.
bla(bla)+ sélectionnera blabla, blablabla, ...
Le symbole ? suivant un caractère ou un groupe signifie que ce caractère ou groupe est
optionnel.
Ex. : a?politiques? sélectionnera les mots
politique, politiques, apolitique
et
apolitiques
.
cinéma(tograph(e|ique))?s? sélectionnera :
cinéma, cinémas, cinématographe,
cinématographes, cinématographique, cinématographiques
.