Constitution de corpus Premières interrogations 6 – 8 octobre 2011 Séminaire de linguistique de Corpus Constituer un corpus, pourquoi ? (1) Observer la langue à travers les usages : – Observer un phénomène linguistique : • – Comparer des genres textuels : • Quelles prépositions accompagnent le verbe aller ? L'imparfait est-il utilisé de la même manière dans les romans et les recettes de cuisine ? Observer la langue d'un auteur : – Une œuvre isolée : • – Observation du champs lexical des mathématiques dans Odile de Raymond Queneau Une œuvre intégrale : l’évolution du vocabulaire de Victor Hugo 6 – 8 octobre 2011 Séminaire de linguistique de Corpus Constituer un corpus, pourquoi ? (2) Comparer la langue de deux auteurs Littérature : Molière et Corneille Autour de l’ambiguïté : Victorri, Kleiber et Rastier Observer la langue à travers le temps La question de la veille lexicale Néologie : aquoibonisme, cibler, documentaire Néosémie : tablette (numérique, graphique) 6 – 8 octobre 2011 Séminaire de linguistique de Corpus Constituer un corpus, comment ? À partir du web – Des aspirateurs de pages web – Des aspirateurs de flux rss À partir de plateformes de constitution de corpus – http://www.cnrtl.fr/corpus/tcof/ À partir de corpus préexistant – http://www.cnrtl.fr/corpus/ • • • • 6 – 8 octobre 2011 Corpus journalistique de l'Est Républicain Frantext : textes libres de droit Corpus d'articles de linguistique (...) Séminaire de linguistique de Corpus Récupérer des textes, oui, mais... Format = à quoi ressemble mon corpus ? – Structure des fichiers – Encodage des fins de ligne – Encodage de caractères Métadonnées = qu'est-ce que je sais sur mon corpus ? – Qui l'a constitué ? – Pour quoi faire ? – Comment ? Droits = qu'ai-je le droit de faire avec mon corpus ? – Le citer ? Le modifier ? Le distribuer ? 6 – 8 octobre 2011 Séminaire de linguistique de Corpus Les formats de fichiers : Texte Brut Structuration : – Tout ce qui est visible est le texte – Structuration en lignes Encodage : – Non spécifié Métadonnées – externes 6 – 8 octobre 2011 Séminaire de linguistique de Corpus Les formats de fichiers : .cnr, .tt, ... Structuration : – Structuration en mots : 1 mot / ligne (+ phrases?) – Structuration en colonnes : forme du mot + lemme + étiquette Encodage : – Non spécifié. Identique à celui du texte brut original? Métadonnées – externes 6 – 8 octobre 2011 Séminaire de linguistique de Corpus Les formats de fichiers : XML Structuration : – À l'aide de balises imbriquées (<p>, <s>, <w>,...) – À l'aide d'attributs (id, msd, lemma, ...) Encodage : – Spécifié en début de document ( encoding="ISO-8859-1") Métadonnées – Internes et/ou externes 6 – 8 octobre 2011 Séminaire de linguistique de Corpus Les formats de fichiers : Encodage des fins de ligne Invisibles à l'oeil nu – Retour chariot : CR, \r – Saut de ligne : LF, \n – Autres méta-caractères invisibles : \t, \b Visibles dans certains éditeurs – Notepad++ Dépendants du système d'exploitation – Windows : CRLF, \r\n – Linux : LF, \n – Mac : CR, \r 6 – 8 octobre 2011 Séminaire de linguistique de Corpus Les formats de fichiers : Encodage de caractères encodage = affichage encodage iso-8859-1 = affichage utf-8 encodage utf-8 = affichage iso-8859-1 Alphabets langues naturelles <=> langage binaire informatique – € <=> UTF-8, binaire : 11100010 10000010 10101100 – € <=> ISO-8859-15, binaire : 01000001 – € <=> UTF-16, binaire : 1000001 0101100 Taille en octet – 1 caractère = 1 octet = 8 bits (0|1) (latin1, MacRoman, Windows-1252) – 1 caractère ≤ 4 octets = 8 à 32 bits (utf-8) 6 – 8 octobre 2011 Séminaire de linguistique de Corpus