NOM ETUDIANT : Projet No 2 : Troisième et dernière partie

publicité
NOM ETUDIANT :
Projet No 2 : Troisième et dernière partie
(ATTENTION : afin de pouvoir remplir cette fiche, vous devez d'abord l'enregistrer)
Travail avec WebBootCaT. Cet outil va nous permettre de construire en quelques minutes un
corpus constitué exclusivement de documents disponibles sur le web. Son avantage sera la
facilité et rapidité de construction. Quels seront ses principaux désavantages à priori :
1. Allez à l'adresse http://www.sketchengine.co.uk/ et créez un compte démo de 30 jours. (vous
allez recevoir une confirmation par e-mail, qui vous permettra d'activer le compte ; s'il
n'arrive pas au bout d'une minute, pensez à vérifier aussi dans les messages indésirables).
2. Un fois connectés, allez dans le menu « settings » (en haut à droite) et changez le mot de
passe de manière à vous en rappeler facilement. Vous avez accès à un ensemble de corpus
parmi lesquels le British National Corpus (BNC - 112 millions de mots) et le British
Academic Written English Corpus (BAWE – 8 millions de mots) pour l'anglais et des
corpus « web » pour le français, espagnol, russe, etc. Testons d'abord les fonctionnalités de
l'outil sur le corpus BNC. L'ensemble de ces textes sont analysés morpho-syntaxiquement et
lemmatisés.
3. La fonctionnalité « concordance » est assez complexe. Elle permet non seulement de
préciser le contexte du terme de requête, mais aussi de faire des recherches dans les souscorpus.
QUESTION : on veut distinguer entre les différents emplois du verbe point, suivi par une
préposition.
Dans le BNC, cliquez à nouveau sur le lien « concordance », puis formulez la requête permettant de
retrouver
- le lemme point employé en tant que verbe (menu Query Type → Lemma ; utiliser le PoS (Part of
Speech) filter afin de préciser la catégorie grammaticale de « point »),
- suivi par une préposition dans le contexte droit (menu Context – utiliser le ménu PoS filter afin
qu'une préposition apparaisse dans les trois mots à droite de point),
- le tout uniquement dans les sous-corpus écrits (menu Text Types).
Pour activer les ménus Query Type, Context et Text Types, vous devez cliquer une fois sur les
liens correspondants parmi les « Expert Options ».
4. QUESTION. Dans une expréssion idiomatique du type « despite … efforts » nous voulons
retrouver les adjectifs pouvant intervenir entre les deux. Formulez la requête permettant de
chercher les occurrences de despite, suivi dans le contexte droit (les 2 ou 3 mots à droite) par
le lemme effort. (Dans le menu Context, utiliser cette fois-ci le « Lemma filter »). Quels
sont donc ces adjectifs utilisés dans la construction despite … efforts ?
5. Toujours dans le BNC, passez à la fonctionnalité Word Sketch. Calculez les Word Sketch
des noms hypothesis ou decision ou du verbe withstand. Qu'est-ce qu'une Word Sketch ?
6. PROBLEME : On souhaite constuire rapidement un corpus illustrant un domaine de
spécialité, pas nécessairement aussi « pointu » que celui que vous avez constitué dans le
cadre de votre cours « Linguistique de corpus ». Nous voulons juste nous familiariser
rapidement avec la terminologie d'un domaine. Vous allez maintenant construire un tel
corpus ad-hoc, en sciences de la terre, en partant d'une liste de terme (seed words). Revenez
à l'accueil : Home (en haut, a droite).
7. Choisir l'option create corpus.
- STEP 1 : Nommez le corpus TEST_STEP et indiquez qu'il sera en anglais.
- STEP 2 : Cochez la case TreeTagger for English (le corpus construit sera ainsi étiqueté et
lemmatisé).
- STEP 3: Cochez la case English PennTB-TreeTagger 2.0 (afin que l'on puisse extraire des Wordsketches du corpus).
A ce moment-là, nous avons le choix d'envoyer sur le serveur de WebBootCaT les fichiers de votre
corpus (Add new file), ou de construire un corpus WEB – ad hoc (Add data from web using
WebBootCaT ). Nous testerons la deuxième solution.
Nommez le premier ensemble de textes test1
Le point de départ sera une liste de 10 termes – vous pouvez essayer les termes que vous avez traité
dans la deuxième partie du projet. Ces termes doivent être séparés par des espaces. Les termes
complexes entourés par des guillemets. Notez ici les seed words que vous avez utilisés :
8. Pour ceux d'entre vous qui n'ont pas les termes sous la main, voici un exemple de requête :
pyroclastic magnitute crater event lava seismicity talus "lava flow"
9.
Cliquez sur « next ». Supposons que l'ensemble de sites proposés sont pertinents (hypothèse
forte). Cliquez sur OK. Cette opération va prendre quelques minutes. Quelle taille fait votre
corpus ?
ATTENTION : si la construction du corpus se bloque ou est trop lente, allez plutôt sur le site :
http://cleaneval.sigwac.org.uk/auth/corpora/ où vous aurez accès avec le même mot de passe que
sur SketchEngine
10. A partir du corpus résultant, vous pouvez extraire (Extract keywords) une nouvelle série de
mots clé/termes simples (Extract keywords). Cette opperation va prendre quelques
minutes. Notez ici les termes que vous avez extraits du corpus :
11. A partir de cet ensemble de termes, nous allons lancer une nouvelle requete de textes sur le
web, à rajouter à notre corpus.
12. Compiler le corpus obtenu (Compile corpus).
13. Enfin, nous pourrons maintenant consulter le corpus que vous venons de créer qui se
trouvera dans (Corpora → My Corpora). Ouvrez manitenant le corpus avec l'interface
Sketch Engine (Open in SkE).
14. Pour un terme de votre choix, calculer son Word Sketch et reproduisez-le ici :
Conclusions : Quels sont les avantages et désavantages de ces corpus par rapport à un corpus
soigneusement construit comme le BNC ?
Ce corpus restera disponible pendant les 30 jours d'essai. Si vous le souhaitez, vous pouvez le
télécharger dans les deux versions : download raw (textes bruts) et download vertical (textes
analysés morpho-syntaxiquement et lemmatisés).
Téléchargement