Constitution de corpus

publicité
Constitution de corpus
Premières interrogations
6 – 8 octobre 2011
Séminaire de linguistique de
Corpus
Constituer un corpus, pourquoi ? (1)

Observer la langue à travers les usages :
–
Observer un phénomène linguistique :
•
–
Comparer des genres textuels :
•

Quelles prépositions accompagnent le verbe aller ?
L'imparfait est-il utilisé de la même manière dans les
romans et les recettes de cuisine ?
Observer la langue d'un auteur :
–
Une œuvre isolée :
•
–
Observation du champs lexical des mathématiques
dans Odile de Raymond Queneau
Une œuvre intégrale : l’évolution du vocabulaire de
Victor Hugo
6 – 8 octobre 2011
Séminaire de linguistique de
Corpus
Constituer un corpus, pourquoi ? (2)


Comparer la langue de deux auteurs

Littérature : Molière et Corneille

Autour de l’ambiguïté : Victorri, Kleiber et Rastier
Observer la langue à travers le temps

La question de la veille lexicale


Néologie : aquoibonisme, cibler, documentaire
Néosémie : tablette (numérique, graphique)
6 – 8 octobre 2011
Séminaire de linguistique de
Corpus
Constituer un corpus, comment ?


À partir du web
–
Des aspirateurs de pages web
–
Des aspirateurs de flux rss
À partir de plateformes de constitution de corpus
–

http://www.cnrtl.fr/corpus/tcof/
À partir de corpus préexistant
–
http://www.cnrtl.fr/corpus/
•
•
•
•
6 – 8 octobre 2011
Corpus journalistique de l'Est Républicain
Frantext : textes libres de droit
Corpus d'articles de linguistique
(...)
Séminaire de linguistique de
Corpus
Récupérer des textes, oui, mais...



Format = à quoi ressemble mon corpus ?
–
Structure des fichiers
–
Encodage des fins de ligne
–
Encodage de caractères
Métadonnées = qu'est-ce que je sais sur mon corpus ?
–
Qui l'a constitué ?
–
Pour quoi faire ?
–
Comment ?
Droits = qu'ai-je le droit de faire avec mon corpus ?
–
Le citer ? Le modifier ? Le distribuer ?
6 – 8 octobre 2011
Séminaire de linguistique de
Corpus
Les formats de fichiers : Texte Brut


Structuration :
–
Tout ce qui est visible est le texte
–
Structuration en lignes
Encodage :
–

Non spécifié
Métadonnées
–
externes
6 – 8 octobre 2011
Séminaire de linguistique de
Corpus
Les formats de fichiers : .cnr, .tt, ...
 Structuration :
–
Structuration en mots : 1 mot / ligne (+ phrases?)
–
Structuration en colonnes : forme du mot + lemme +
étiquette
 Encodage :
–
Non spécifié. Identique à celui du texte brut original?
 Métadonnées
–
externes
6 – 8 octobre 2011
Séminaire de linguistique de
Corpus
Les formats de fichiers : XML
 Structuration :
–
À l'aide de balises imbriquées (<p>, <s>, <w>,...)
–
À l'aide d'attributs (id, msd, lemma, ...)
 Encodage :
–
Spécifié en début de document ( encoding="ISO-8859-1")
 Métadonnées
–
Internes et/ou externes
6 – 8 octobre 2011
Séminaire de linguistique de
Corpus
Les formats de fichiers :
Encodage des fins de ligne


Invisibles à l'oeil nu
–
Retour chariot : CR, \r
–
Saut de ligne : LF, \n
–
Autres méta-caractères invisibles : \t, \b
Visibles dans certains éditeurs
–

Notepad++
Dépendants du système d'exploitation
–
Windows : CRLF, \r\n
–
Linux : LF, \n
–
Mac : CR, \r
6 – 8 octobre 2011
Séminaire de linguistique de
Corpus
Les formats de fichiers :
Encodage de caractères
encodage = affichage


encodage iso-8859-1
=
affichage utf-8
encodage utf-8
=
affichage iso-8859-1
Alphabets langues naturelles <=> langage binaire informatique
–
€ <=> UTF-8, binaire : 11100010 10000010 10101100
–
€ <=> ISO-8859-15, binaire : 01000001
–
€ <=> UTF-16, binaire : 1000001 0101100
Taille en octet
–
1 caractère = 1 octet = 8 bits (0|1) (latin1, MacRoman, Windows-1252)
–
1 caractère ≤ 4 octets = 8 à 32 bits (utf-8)
6 – 8 octobre 2011
Séminaire de linguistique de
Corpus
Téléchargement