5. Toujours dans le BNC, passez à la fonctionnalité Word Sketch. Calculez les Word Sketch
des noms hypothesis ou decision ou du verbe withstand. Qu'est-ce qu'une Word Sketch ?
6. PROBLEME : On souhaite constuire rapidement un corpus illustrant un domaine de
spécialité, pas nécessairement aussi « pointu » que celui que vous avez constitué dans le
cadre de votre cours « Linguistique de corpus ». Nous voulons juste nous familiariser
rapidement avec la terminologie d'un domaine. Vous allez maintenant construire un tel
corpus ad-hoc, en sciences de la terre, en partant d'une liste de terme (seed words). Revenez
à l'accueil : Home (en haut, a droite).
7. Choisir l'option create corpus.
- STEP 1 : Nommez le corpus TEST_STEP et indiquez qu'il sera en anglais.
- STEP 2 : Cochez la case TreeTagger for English (le corpus construit sera ainsi étiqueté et
lemmatisé).
- STEP 3: Cochez la case English PennTB-TreeTagger 2.0 (afin que l'on puisse extraire des Word-
sketches du corpus).
A ce moment-là, nous avons le choix d'envoyer sur le serveur de WebBootCaT les fichiers de votre
corpus (Add new file), ou de construire un corpus WEB – ad hoc (Add data from web using
WebBootCaT ). Nous testerons la deuxième solution.
Nommez le premier ensemble de textes test1
Le point de départ sera une liste de 10 termes – vous pouvez essayer les termes que vous avez traité
dans la deuxième partie du projet. Ces termes doivent être séparés par des espaces. Les termes
complexes entourés par des guillemets. Notez ici les seed words que vous avez utilisés :
8. Pour ceux d'entre vous qui n'ont pas les termes sous la main, voici un exemple de requête :
pyroclastic magnitute crater event lava seismicity talus "lava flow"
9. Cliquez sur « next ». Supposons que l'ensemble de sites proposés sont pertinents (hypothèse
forte). Cliquez sur OK. Cette opération va prendre quelques minutes. Quelle taille fait votre
corpus ?
ATTENTION : si la construction du corpus se bloque ou est trop lente, allez plutôt sur le site :
http://cleaneval.sigwac.org.uk/auth/corpora/ où vous aurez accès avec le même mot de passe que
sur SketchEngine
10. A partir du corpus résultant, vous pouvez extraire (Extract keywords) une nouvelle série de
mots clé/termes simples (Extract keywords). Cette opperation va prendre quelques
minutes. Notez ici les termes que vous avez extraits du corpus :
11. A partir de cet ensemble de termes, nous allons lancer une nouvelle requete de textes sur le
web, à rajouter à notre corpus.
12. Compiler le corpus obtenu (Compile corpus).
13. Enfin, nous pourrons maintenant consulter le corpus que vous venons de créer qui se
trouvera dans (Corpora → My Corpora). Ouvrez manitenant le corpus avec l'interface
Sketch Engine (Open in SkE).
14. Pour un terme de votre choix, calculer son Word Sketch et reproduisez-le ici :