NOM ETUDIANT : Projet No 2 : Troisième et dernière partie (ATTENTION : afin de pouvoir remplir cette fiche, vous devez d'abord l'enregistrer) Travail avec WebBootCaT. Cet outil va nous permettre de construire en quelques minutes un corpus constitué exclusivement de documents disponibles sur le web. Son avantage sera la facilité et rapidité de construction. Quels seront ses principaux désavantages à priori : 1. Allez à l'adresse http://www.sketchengine.co.uk/ et créez un compte démo de 30 jours. (vous allez recevoir une confirmation par e-mail, qui vous permettra d'activer le compte ; s'il n'arrive pas au bout d'une minute, pensez à vérifier aussi dans les messages indésirables). 2. Un fois connectés, allez dans le menu « settings » (en haut à droite) et changez le mot de passe de manière à vous en rappeler facilement. Vous avez accès à un ensemble de corpus parmi lesquels le British National Corpus (BNC - 112 millions de mots) et le British Academic Written English Corpus (BAWE – 8 millions de mots) pour l'anglais et des corpus « web » pour le français, espagnol, russe, etc. Testons d'abord les fonctionnalités de l'outil sur le corpus BNC. L'ensemble de ces textes sont analysés morpho-syntaxiquement et lemmatisés. 3. La fonctionnalité « concordance » est assez complexe. Elle permet non seulement de préciser le contexte du terme de requête, mais aussi de faire des recherches dans les souscorpus. QUESTION : on veut distinguer entre les différents emplois du verbe point, suivi par une préposition. Dans le BNC, cliquez à nouveau sur le lien « concordance », puis formulez la requête permettant de retrouver - le lemme point employé en tant que verbe (menu Query Type → Lemma ; utiliser le PoS (Part of Speech) filter afin de préciser la catégorie grammaticale de « point »), - suivi par une préposition dans le contexte droit (menu Context – utiliser le ménu PoS filter afin qu'une préposition apparaisse dans les trois mots à droite de point), - le tout uniquement dans les sous-corpus écrits (menu Text Types). Pour activer les ménus Query Type, Context et Text Types, vous devez cliquer une fois sur les liens correspondants parmi les « Expert Options ». 4. QUESTION. Dans une expréssion idiomatique du type « despite … efforts » nous voulons retrouver les adjectifs pouvant intervenir entre les deux. Formulez la requête permettant de chercher les occurrences de despite, suivi dans le contexte droit (les 2 ou 3 mots à droite) par le lemme effort. (Dans le menu Context, utiliser cette fois-ci le « Lemma filter »). Quels sont donc ces adjectifs utilisés dans la construction despite … efforts ? 5. Toujours dans le BNC, passez à la fonctionnalité Word Sketch. Calculez les Word Sketch des noms hypothesis ou decision ou du verbe withstand. Qu'est-ce qu'une Word Sketch ? 6. PROBLEME : On souhaite constuire rapidement un corpus illustrant un domaine de spécialité, pas nécessairement aussi « pointu » que celui que vous avez constitué dans le cadre de votre cours « Linguistique de corpus ». Nous voulons juste nous familiariser rapidement avec la terminologie d'un domaine. Vous allez maintenant construire un tel corpus ad-hoc, en sciences de la terre, en partant d'une liste de terme (seed words). Revenez à l'accueil : Home (en haut, a droite). 7. Choisir l'option create corpus. - STEP 1 : Nommez le corpus TEST_STEP et indiquez qu'il sera en anglais. - STEP 2 : Cochez la case TreeTagger for English (le corpus construit sera ainsi étiqueté et lemmatisé). - STEP 3: Cochez la case English PennTB-TreeTagger 2.0 (afin que l'on puisse extraire des Wordsketches du corpus). A ce moment-là, nous avons le choix d'envoyer sur le serveur de WebBootCaT les fichiers de votre corpus (Add new file), ou de construire un corpus WEB – ad hoc (Add data from web using WebBootCaT ). Nous testerons la deuxième solution. Nommez le premier ensemble de textes test1 Le point de départ sera une liste de 10 termes – vous pouvez essayer les termes que vous avez traité dans la deuxième partie du projet. Ces termes doivent être séparés par des espaces. Les termes complexes entourés par des guillemets. Notez ici les seed words que vous avez utilisés : 8. Pour ceux d'entre vous qui n'ont pas les termes sous la main, voici un exemple de requête : pyroclastic magnitute crater event lava seismicity talus "lava flow" 9. Cliquez sur « next ». Supposons que l'ensemble de sites proposés sont pertinents (hypothèse forte). Cliquez sur OK. Cette opération va prendre quelques minutes. Quelle taille fait votre corpus ? ATTENTION : si la construction du corpus se bloque ou est trop lente, allez plutôt sur le site : http://cleaneval.sigwac.org.uk/auth/corpora/ où vous aurez accès avec le même mot de passe que sur SketchEngine 10. A partir du corpus résultant, vous pouvez extraire (Extract keywords) une nouvelle série de mots clé/termes simples (Extract keywords). Cette opperation va prendre quelques minutes. Notez ici les termes que vous avez extraits du corpus : 11. A partir de cet ensemble de termes, nous allons lancer une nouvelle requete de textes sur le web, à rajouter à notre corpus. 12. Compiler le corpus obtenu (Compile corpus). 13. Enfin, nous pourrons maintenant consulter le corpus que vous venons de créer qui se trouvera dans (Corpora → My Corpora). Ouvrez manitenant le corpus avec l'interface Sketch Engine (Open in SkE). 14. Pour un terme de votre choix, calculer son Word Sketch et reproduisez-le ici : Conclusions : Quels sont les avantages et désavantages de ces corpus par rapport à un corpus soigneusement construit comme le BNC ? Ce corpus restera disponible pendant les 30 jours d'essai. Si vous le souhaitez, vous pouvez le télécharger dans les deux versions : download raw (textes bruts) et download vertical (textes analysés morpho-syntaxiquement et lemmatisés).