Mode d`emploi

publicité
Frantext 1, présentation et principales
techniques de recherche
Charles Bernet, Gisèle Kahn (ENS de Lyon)
1. Présentation
2. Menu général de Frantext
3. Définition du corpus de travail
4. Visualisation du corpus de travail
5. Recherche dans les textes
6. Expressions de séquence
1. Présentation
Frantext est une base textuelle à dominante littéraire comportant des textes qui
s'échelonnent du début du XVI e au début du XXIe siècle – on pourra mettre sur le
compte d’aberrations de l’espace-temps la présence perturbante de plusieurs textes
du XIIIe siècle… Les interrogations peuvent porter sur la base complète ou sur des
sous-ensembles définis par tranches chronologiques, par genres, par auteurs ou par
titres.
La base s'est construite à partir d'un premier ensemble de textes réunis, vers 1960,
pour apporter une documentation d'exemples au Trésor de la langue française, qui
comportait un peu moins de mille œuvres des XIX e et XXe siècles sélectionnées à
partir des bibliographies de manuels d'histoire littéraire et avec le concours de
spécialistes. Cet ensemble s'est rapidement enrichi, vers 1970, de textes à caractère
scientifique et technique nécessaires à la rédaction du dictionnaire. Par la suite, le
fonds s'est étendu de façon à couvrir les trois siècles précédents ainsi que la période
suivante. Il continue de s'étendre progressivement.
Les textes littéraires sont pour la plupart saisis intégralement. Les saisies
reproduisent l'orthographe des éditions sur papier dont ils sont tirés. En effectuant
des recherches dans Frantext, il est important de tenir compte des variations
graphiques liées à la chronologie.
Dans la version non catégorisée, dite Frantext intégral, le logiciel d'interrogation
permet des requêtes complexes portant sur des mots graphiques ou sur des lemmes
(toutes les formes d'un même verbe, d'un même adjectif ou d'un même substantif).
Au total, 3985 textes sont interrogeables.
La version catégorisée est constituée d'un sous-ensemble de la base intégrale (plus
précisément, 1940 textes postérieurs à 1829), dans lesquels une catégorie a été
affectée aux mots ou séquences de mots. Elle offre des possibilités d'interrogation
élargies à des requêtes grammaticales.
Page
d'accueil : http://www.frantext.fr (puis
lien Frantext
intégral ou Frantext
catégorisé). Consultation sur abonnement dans les deux cas.
2. Menu général de Frantext
En cliquant sur le bouton Accès à Frantext intégral à partir de la page d'accueil, on
accède à la base non catégorisée. Un menu déroulant Menu de Frantext regroupe
toutes les commandes [1]. Le tableau ci-dessous montre les principales possibilités
offertes par le logiciel. Chaque rubrique est accompagnée d'une aide en ligne
appropriée.
Menu général de Frantext intégral
Corpus de travail
Définition du corpus de travail
Visualisation du corpus de travail
Vider le corpus de travail
Sélectionner la totalité des textes
Importer un corpus de travail
Exporter un corpus de travail
Recherche dans les textes
Recherche simple
Recherche de cooccurrences
Recherche des mots d'une liste
Historique des recherches effectuées
Calculs de fréquences
Calcul de la fréquence de mots donnés
Répartition de la fréquence de mots donnés dans le corpus de travail
Obtenir les fréquences des mots du corpus de travail
Étude de voisinage
Étude du voisinage d'un mot
Étude du voisinage des mots d'une liste
Listes de mots
Création manuelle d'une liste
Création d'une liste par flexion d'un lemme
Création d'une liste à partir des mots du corpus de travail
Édition des listes existantes
Transmission d'une liste de votre ordinateur vers le serveur
Grammaires
Création d'une grammaire
Édition des grammaires existantes
Transmission d'une grammaire de votre ordinateur vers le serveur
3. Définition du corpus de travail
Les outils de Frantext ne fonctionnent que si l'on a défini un corpus de travail (voir
l'aide en ligne Que signifie corpus de travail ?). Si l'on souhaite travailler sur
l'ensemble de la base, il faut quand même passer par ce service et enregistrer la
sélection en n'entrant aucun critère. Les critères de sélection sont les suivants :
auteurs, titres, dates de publication et genres littéraires.
Parmi les genres littéraires, on trouve principalement : correspondance, éloquence,
mémoires, pamphlet, poésie, récit de voyage, roman, théâtre, traité, essai. On peut
en sélectionner plusieurs.
Formulaire de sélection du corpus de travail
On a tapé ionesco dans la ligne de saisie avant de cliquer sur le bouton dans
l'auteur. On a obtenu le résultat suivant :
Exemple de présélection d'un corpus de travail
La première colonne indique les cotes Frantext. Les cases à cocher de la dernière
colonne permettent d'affiner la sélection au cas par cas.
4. Visualisation du corpus de travail
La visualisation du corpus de travail permet à tout moment d'éliminer des textes ou
d'en ajouter de nouveaux. L'affichage est similaire à la figure précédente.
Modifications possibles du corpus de travail (bas du formulaire)
5. Recherche dans les textes
La recherche dans les textes du corpus de travail se fait à l'aide du formulaire
reproduit ci-dessous.
Formulaire de recherche simple
Quatre modes de saisie sont proposés :
•
Texte exact. Par ex. roi recherche le mot "roi" tel quel, avec ou sans
majuscule.
•
Flexion d'un verbe. Il faut taper un verbe à l'infinitif présent. Par
ex. vivre recherche toutes les formes du verbe ("vis", "vit", "vivons"…,
"vivais", "vivant", "vécu"…).
•
Flexion d'un substantif ou adjectif. Il faut taper un substantif ou un
adjectif au masculin singulier. Par ex. royal recherche "royal", "royale" et
"royaux".
•
Expression de séquence. Ce mode est détaillé ci-après. Noter que les
trois modes précédents peuvent s'exprimer en tant qu'expressions de
séquence [2].
Exemple de résultats
On peut afficher les contextes dans un format réduit (comme ci-dessus) ou élargi
(bouton Affichage au km ou Affichage des lignes). Le zoom (contexte d'une ou
plusieurs pages) n'est possible qu'avec les textes libres de droits.
6. Expressions de séquence
Ce sont des expressions qui ont pour but de faire apparaître des contextes contenant
un mot ou une séquence de mots donnés. Une expression se construit comme une
suite de sous-expressions élémentaires, éventuellement réduite à une seule.
Possibilités de sous-expressions
1) une graphie
donnée
2) une expression 3) une liste
de
choix
7) une sousexpression
optionnelle
8) une entité
catégorisée
4) un verbe
fléchi
5) un
substantif ou
un adjectif
fléchi
9) l'utilisation 10) le
11) résumé
d'une
symbole de
grammaire
négation
6) zéro, un ou
plusieurs
mot(s)
quelconque(s)
12) liste des codes
grammaticaux
1) une graphie donnée : on entre maison, on obtient maison.
2) une expression de choix : on entre maison (blanche|bleue) ou (maison
blanche|maison bleue), on obtient maison blanche et maison bleue.
3) une liste : soit une liste déjà créée ; on l'a intitulée couleur, elle contient
les mots rouge, vert et bleu ; on entre volet &lcouleur, on obtientvolet
rouge, volet vert et volet bleu.
4) un verbe fléchi : on entre &caimer le calme, on obtient aime le
calme, aimait le calme, aimera le calme, etc.
5) un substantif ou un adjectif fléchi : on entre &mfleur &mvert, on
obtient fleur verte et fleurs vertes.
6) zéro, un ou plusieurs mot(s) quelconque(s) : &q(n1,n2) désigne une suite
de mots dont le nombre est compris entre n1 et n2 ; on entre un &q(0,2)
homme, on obtient un homme, un grand homme et un très petit homme.
7) une sous-expression optionnelle : on entre un &?(&?très grand)
homme, on obtient un homme, un grand homme et un très grand
homme.
10) le symbole de négation (^) : il peut être placé devant n'importe quelle
sous-expression.
Les exemples ci-dessus sont tirés directement de l'aide en ligne. On ne peut
chercher des entités catégorisées (8) que dans la base de textes catégorisés.
L'utilisation d'une grammaire (9) suppose qu'on l'ait préalablement créée. Le résumé
(11) et la liste des codes grammaticaux (12) sont des pages annexes de l'aide en
ligne.
N.B. Tous les exemples présentés dans ce document correspondent à l'état de la
base en juin 2010.
[1] Le menu déroulant nécessite la présence du plug-in Java Runtime Environment dans le
navigateur web. À défaut, le lien Toutes les possibilités en une pagepermet d'afficher l'ensemble
des commandes sous forme de liens classiques.
[2] L'aide en ligne indique que le mode Texte exact accepte aussi les expressions de séquence…
Téléchargement