NOM ETUDIANT : Projet No 2 : Troisième et dernière partie

Téléchargement

NOM ETUDIANT :

Projet No 2 : Troisième et dernière partie

(ATTENTION : afin de pouvoir remplir cette fiche, vous devez d'abord l'enregistrer)

Travail avec WebBootCaT. Cet outil va nous permettre de construire en quelques minutes un

corpus constitué exclusivement de documents disponibles sur le web. Son avantage sera la

facilité et rapidité de construction. Quels seront ses principaux désavantages à priori :

1. Allez à l'adresse http://www.sketchengine.co.uk/ et créez un compte démo de 30 jours. (vous

allez recevoir une confirmation par e-mail, qui vous permettra d'activer le compte ; s'il

n'arrive pas au bout d'une minute, pensez à vérifier aussi dans les messages indésirables).

2. Un fois connectés, allez dans le menu « settings » (en haut à droite) et changez le mot de

passe de manière à vous en rappeler facilement. Vous avez accès à un ensemble de corpus

parmi lesquels le British National Corpus (BNC - 112 millions de mots) et le British

Academic Written English Corpus (BAWE – 8 millions de mots) pour l'anglais et des

corpus « web » pour le français, espagnol, russe, etc. Testons d'abord les fonctionnalités de

l'outil sur le corpus BNC. L'ensemble de ces textes sont analysés morpho-syntaxiquement et

lemmatisés.

3. La fonctionnalité « concordance » est assez complexe. Elle permet non seulement de

préciser le contexte du terme de requête, mais aussi de faire des recherches dans les sous-

corpus.

QUESTION : on veut distinguer entre les différents emplois du verbe point, suivi par une

préposition.

Dans le BNC, cliquez à nouveau sur le lien « concordance », puis formulez la requête permettant de

retrouver

- le lemme point employé en tant que verbe (menu Query Type → Lemma ; utiliser le PoS (Part of

Speech) filter afin de préciser la catégorie grammaticale de « point »),

- suivi par une préposition dans le contexte droit (menu Context – utiliser le ménu PoS filter afin

qu'une préposition apparaisse dans les trois mots à droite de point),

- le tout uniquement dans les sous-corpus écrits (menu Text Types).

Pour activer les ménus Query Type, Context et Text Types, vous devez cliquer une fois sur les

liens correspondants parmi les « Expert Options ».

4. QUESTION. Dans une expréssion idiomatique du type « despite … efforts » nous voulons

retrouver les adjectifs pouvant intervenir entre les deux. Formulez la requête permettant de

chercher les occurrences de despite, suivi dans le contexte droit (les 2 ou 3 mots à droite) par

le lemme effort. (Dans le menu Context, utiliser cette fois-ci le « Lemma filter »). Quels

sont donc ces adjectifs utilisés dans la construction despite … efforts ?

5. Toujours dans le BNC, passez à la fonctionnalité Word Sketch. Calculez les Word Sketch

des noms hypothesis ou decision ou du verbe withstand. Qu'est-ce qu'une Word Sketch ?

6. PROBLEME : On souhaite constuire rapidement un corpus illustrant un domaine de

spécialité, pas nécessairement aussi « pointu » que celui que vous avez constitué dans le

cadre de votre cours « Linguistique de corpus ». Nous voulons juste nous familiariser

rapidement avec la terminologie d'un domaine. Vous allez maintenant construire un tel

corpus ad-hoc, en sciences de la terre, en partant d'une liste de terme (seed words). Revenez

à l'accueil : Home (en haut, a droite).

7. Choisir l'option create corpus.

- STEP 1 : Nommez le corpus TEST_STEP et indiquez qu'il sera en anglais.

- STEP 2 : Cochez la case TreeTagger for English (le corpus construit sera ainsi étiqueté et

lemmatisé).

- STEP 3: Cochez la case English PennTB-TreeTagger 2.0 (afin que l'on puisse extraire des Word-

sketches du corpus).

A ce moment-là, nous avons le choix d'envoyer sur le serveur de WebBootCaT les fichiers de votre

corpus (Add new file), ou de construire un corpus WEB – ad hoc (Add data from web using

WebBootCaT ). Nous testerons la deuxième solution.

Nommez le premier ensemble de textes test1

Le point de départ sera une liste de 10 termes – vous pouvez essayer les termes que vous avez traité

dans la deuxième partie du projet. Ces termes doivent être séparés par des espaces. Les termes

complexes entourés par des guillemets. Notez ici les seed words que vous avez utilisés :

8. Pour ceux d'entre vous qui n'ont pas les termes sous la main, voici un exemple de requête :

pyroclastic magnitute crater event lava seismicity talus "lava flow"

9. Cliquez sur « next ». Supposons que l'ensemble de sites proposés sont pertinents (hypothèse

forte). Cliquez sur OK. Cette opération va prendre quelques minutes. Quelle taille fait votre

corpus ?

ATTENTION : si la construction du corpus se bloque ou est trop lente, allez plutôt sur le site :

http://cleaneval.sigwac.org.uk/auth/corpora/ où vous aurez accès avec le même mot de passe que

sur SketchEngine

10. A partir du corpus résultant, vous pouvez extraire (Extract keywords) une nouvelle série de

mots clé/termes simples (Extract keywords). Cette opperation va prendre quelques

minutes. Notez ici les termes que vous avez extraits du corpus :

11. A partir de cet ensemble de termes, nous allons lancer une nouvelle requete de textes sur le

web, à rajouter à notre corpus.

12. Compiler le corpus obtenu (Compile corpus).

13. Enfin, nous pourrons maintenant consulter le corpus que vous venons de créer qui se

trouvera dans (Corpora → My Corpora). Ouvrez manitenant le corpus avec l'interface

Sketch Engine (Open in SkE).

14. Pour un terme de votre choix, calculer son Word Sketch et reproduisez-le ici :

Conclusions : Quels sont les avantages et désavantages de ces corpus par rapport à un corpus

soigneusement construit comme le BNC ?

Ce corpus restera disponible pendant les 30 jours d'essai. Si vous le souhaitez, vous pouvez le

télécharger dans les deux versions : download raw (textes bruts) et download vertical (textes

analysés morpho-syntaxiquement et lemmatisés).

1 / 3 100%

Documents connexes

corpus 10 mai nrc13

BA 7 – EVALUATION ORALE DRAMATURGIE Liste de textes 3

le corps dans tous ses etats dans l`oeuvre de john donne

Révisions pour le brevet blanc 3e2 Séquence 1 : Nouvelles à chute

Verbe ou révérence

Lexico 3

Compte-rendu de l`exercice d`écriture

Rapport Economie

Les groupes compléments Les Groupes compléments

Evaluation des abécédaires

Profil de poste

INFORMATIQUE 3 – Programmation en Perl

Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans l'interface ou les textes ? Ou savez-vous comment améliorer l'interface utilisateur de StudyLib ? N'hésitez pas à envoyer vos suggestions. C'est très important pour nous!

GDPR Confidentialité Conditions d''utilisation

NOM ETUDIANT : Projet No 2 : Troisième et dernière partie

Documents connexes

Faire une suggestion

Produits

Assistance

Produits

Assistance

NOM ETUDIANT : Projet No 2 : Troisième et dernière partie

Documents connexes

Faire une suggestion

Produits

Assistance

Ajouter ce document à la (aux) collections

Ajouter ce document à enregistré

Suggérez-nous comment améliorer StudyLib