Cours 4 Étiquettes lexicales Catégories grammaticales En anglais parts of speech (POS) Exemple de liste de catégories grammaticales nom, verbe, adjectif, adverbe, pronom, préposition, conjonction, déterminant En général, 10 à 15 catégories par langue Information sur les voisins du mot Un pronom est souvent suivi d'un verbe : il intervient Un déterminant est souvent suivi d'un nom : les annonces Information sur la prononciation du mot Président peut être un nom : Le président de séance est en retard Président peut être un verbe : Ils président la séance à tour de rôle La prononciation est différente Les poules du couvent couvent Catégories grammaticales Catégories grammaticales et suffixes vaccine est un verbe, on peut le regrouper avec vacciner féminine est un adjectif, on peut le regrouper avec féminin Application : la recherche d'informations Catégories grammaticales et pertinence Les noms sont souvent pertinents : balle, film, banque... Les prépositions le sont moins : selon, depuis, malgré... une croix en or et pierres précieuses... nom Or la version de la chanson... conjonction Définition des catégories grammaticales Par les suffixes Deux mots qui prennent les mêmes suffixes ont des chances d'appartenir à la même catégorie vaccine, vaccinent, vacciné, vaccines/juge, jugent, jugé, juges verbes parent, parents, parente, parentes/ami, amis, amie, amies noms Par les contextes Deux mots qui acceptent les mêmes contextes ont des chances d'appartenir à la même catégorie Les représentants des pays concernés Les représentants des partis concernés noms Le TGV n'avait pas prévu de s'arrêter Le TGV n'avait pas cessé de s'arrêter verbes Catégories ouvertes/fermées Catégories fermées Les éléments sont en nombre limité et fixe Mots grammaticaux (jouent un rôle important dans la grammaire), courts et fréquents Prépositions : à de par pour sans selon depuis malgré... Quelques dizaines On en crée rarement de nouvelles Catégories ouvertes Les éléments sont nombreux et de nouveaux sont créés continuellement Noms : futon MP3 pseudotéléspectateur triréacteur... Quelques dizaines de milliers Verbes : faxer surréglementer sursubventionner télécopier... Quelques milliers Catégories ouvertes Noms ou substantifs Souvent précédés d'un déterminant des annonces Varient entre singulier et pluriel une annonce/des annonces Sous-catégories : noms communs bateau, chaise, relation, élève noms propres Paris, Laporte, Lip Verbes Varient en temps il annonce il annoncera personne il annonce nous annonçons Sous-catégories : auxiliaires pouvoir, devoir, avoir, être... Catégories ouvertes Adjectifs Varient entre singulier et pluriel masculin et féminin normal normaux Adverbes Généralement déplaçables dans une phrase Souvent, le bus s'arrête ici Le bus, souvent, s'arrête ici Le bus s'arrête souvent ici Le bus s'arrête ici souvent normaux normales Catégories fermées Prépositions à de par pour sans selon sur sous avec depuis malgré... Devant des noms ou des verbes : à des annonces pour annoncer Conjonctions et ou mais car... Entre deux séquences analogues : des programmes et des données que quand si comme lorsque... Devant une phrase incluse dans une autre : Je viendrai si je peux Catégories fermées Déterminants un une des du le la les chaque deux trois quatre beaucoup mon... Devant des noms : des annonces beaucoup d'annonces Pronoms je tu il elle on nous vous moi toi lui ceci cela qui quoi que quelqu'un... Étiquettes lexicales En anglais tags Je viendrai si je peux Je,PRO:1s viendrai,V:F1s si,CONJS je,PRO:1s peux,V:P1s Un objet qui identifie pour chaque token-mot - la catégorie grammaticale - éventuellement d'autres propriétés (temps, personne, nombre...) On peut aussi étiqueter les symboles de ponctuation Étiquettes lexicales non structurées Je,PP viendrai,VBF si,IN je,PP peux,VBP Chaque étiquette représente une catégorie généralement un peu plus précise qu'une catégorie grammaticale Exemples PP pronom personnel VBF verbe conjugué au futur IN préposition ou conjonction de subordination Jeu d'étiquettes (tagset) Ensemble d'étiquettes Pour l'anglais, généralement 50 à 150 étiquettes Étiquettes lexicales structurées Je,PRO:1s viendrai,V:F1s si,CONJS je,PRO:1s peux,V:P1s Chaque étiquette donne séparément - la catégorie grammaticale - d'autres propriétés éventuelles : - temps (présent, futur, passé...) - personne (1, 2, 3) - genre (masculin, féminin) - nombre (singulier, pluriel) etc. Traits flexionnels Étiquettes lexicales structurées viendrai,V:F1s Paires attribut-valeur partOfSpeech = verb tense = future person = 1 number = singular attributs (features) valeurs (values) ABR ADJ ADV DET:ART DET:POS INT KON NAM NOM NUM PRO PRO:DEM PRO:IND PRO:PER PRO:POS PRO:REL PRP abreviation adjective adverb article possessive pronoun (ma, ta, ...) interjection conjunction proper name noun numeral pronoun demonstrative pronoun indefinite pronoun personal pronoun possessive pronoun (mien, tien, ...) relative pronoun preposition PRP:det PUN PUN:cit SENT SYM VER:cond VER:futu VER:impe VER:impf VER:infi VER:pper VER:ppre VER:pres VER:simp VER:subi VER:subp preposition plus article (au,du,aux,des) punctuation punctuation citation sentence tag symbol verb conditional verb futur verb imperative verb imperfect verb infinitive verb past participle verb present participle verb present verb simple past verb subjunctive imperfect verb subjunctive present Racinisation Pour la recherche d'informations, les variations de forme des mots ne sont pas très pertinentes et augmentent inutilement le nombre de dimensions de l'espace vectoriel Exemples vaccine, vaccinent, vacciné, vaccines... La racinisation (stemming) consiste à remplacer toutes ces variantes par vacciner ou même vaccine, vaccinent, vacciné, vaccines, vaccination, vaccinal... par vaccin On n'a pas besoin que ce soit un mot correct, il suffit que ce soit le même pour tous Le raciniseur de Porter (1980) Substitution de suffixes ational --> ate relational --> relate ing --> motoring --> motor Plusieurs passes Passe 1 ies --> i capabilities --> capabiliti Passe 4 (m>0)biliti --> ble capabiliti --> capable m = nombre de séquences voyelle/consonne Exemples capabilities m=5 capa m = 1 Step 1a SSES -> SS IES -> I SS S -> SS -> caresses ponies ties caress cats -> -> -> -> -> caress poni ti caress cat feed agreed plastered bled motoring sing -> -> -> -> -> -> feed agree plaster bled motor sing Step 1b (m>0) EED -> EE (*v*) ED -> (*v*) ING -> If the second or third of the rules in Step 1b is successful, the following is done: AT -> ATE BL -> BLE IZ -> IZE (*d and not (*L or *S or *Z)) (m=1 and *o) -> E conflat(ed) -> conflate troubl(ed) -> trouble siz(ed) -> size -> single letter hopp(ing) -> hop tann(ed) -> tan fall(ing) -> fall hiss(ing) -> hiss fizz(ed) -> fizz fail(ing) -> fail fil(ing) -> file The rule to map to a single letter causes the removal of one of the double letter pair. *v* *d *o contains a vowel (a, e, i, o, u, or y preceded by a consonant) ends with a double consonant, e.g. tt, ss ends with cvc, where the second c is not w, x or y Step 1c (*v*) Y -> I happy sky -> -> happi sky Step 2 (m>0) ATIONAL -> (m>0) TIONAL -> ATE TION (m>0) (m>0) (m>0) (m>0) (m>0) (m>0) (m>0) (m>0) (m>0) (m>0) (m>0) (m>0) (m>0) (m>0) (m>0) (m>0) (m>0) (m>0) ENCE ANCE IZE ABLE AL ENT E OUS IZE ATE ATE AL IVE FUL OUS AL IVE BLE ENCI ANCI IZER ABLI ALLI ENTLI ELI OUSLI IZATION ATION ATOR ALISM IVENESS FULNESS OUSNESS ALITI IVITI BILITI -> -> -> -> -> -> -> -> -> -> -> -> -> -> -> -> -> -> relational -> conditional -> rational -> valenci -> hesitanci -> digitizer -> conformabli -> radicalli -> differentli -> vileli - > analogousli -> vietnamization -> predication -> operator -> feudalism -> decisiveness -> hopefulness -> callousness -> formaliti -> sensitiviti -> sensibiliti -> relate condition rational valence hesitance digitize conformable radical different vile analogous vietnamize predicate operate feudal decisive hopeful callous formal sensitive sensible Step 3 (m>0) (m>0) (m>0) (m>0) (m>0) (m>0) (m>0) ICATE ATIVE ALIZE ICITI ICAL FUL NESS -> -> -> -> -> -> -> IC AL IC IC triplicate formative formalize electriciti electrical hopeful goodness -> -> -> -> -> -> -> triplic form formal electric electric hope good revival allowance inference airliner gyroscopic adjustable defensible irritant replacement adjustment dependent adoption homologou communism activate angulariti homologous effective bowdlerize -> -> -> -> -> -> -> -> -> -> -> -> -> -> -> -> -> -> -> reviv allow infer airlin gyroscop adjust defens irrit replac adjust depend adopt homolog commun activ angular homolog effect bowdler Step 4 (m>1) AL -> (m>1) ANCE -> (m>1) ENCE -> (m>1) ER -> (m>1) IC -> (m>1) ABLE -> (m>1) IBLE -> (m>1) ANT -> (m>1) EMENT -> (m>1) MENT -> (m>1) ENT -> (m>1 and (*S or *T)) ION -> (m>1) OU -> (m>1) ISM -> (m>1) ATE -> (m>1) ITI -> (m>1) OUS -> (m>1) IVE -> (m>1) IZE -> *S ends with s (and the same for other letters) Step 5a (m>1) E -> (m=1 and not *o) E -> probate rate cease -> -> -> probat rate ceas -> -> control roll Step 5b (m > 1 and *d and *L) -> single letter controll roll Le raciniseur de Porter (1980) Exemples d'imperfections Paires regroupées numerical numerous university universe Paires non regroupées noisy --> noisi sparsity --> sparsiti --> numer --> univers noise --> nois sparse --> spars Étiquetage Attribution d'une étiquette lexicale à chaque token (mot ou symbole de ponctuation) Entrées : un texte tokenisé et un jeu d'étiquettes Sortie : le texte étiqueté Applications recherche d'informations reconnaissance de parole analyse syntaxique Ambiguïtés lexicales La poste livre le colis dans un délai d'une semaine verbe Le livre parvient à l'acheteur en une semaine nom Étiquetage par règles écrites à la main Première étape On consulte un lexique qui donne toutes les étiquettes possibles des tokens-mots Il,PRO:3s est,V:P3s,A:ms,A:mp,A:fs,A:fp,ADV fin,A:ms,N:fs ./. Deuxième étape On applique des règles écrites à la main qui éliminent des étiquettes en fonction du contexte if (+1A/ADV/QUANT); (+2 SENT-LIM); (NOT -1 SVOC/A); then eliminate non-ADV tags else eliminate ADV tag Étiquetage par règles apprises statistiquement (Brill, 1995) Première étape On consulte un lexique qui donne l'étiquette la plus fréquente pour chaque token race/NN (plus souvent nom que verbe) expected/VBN to/TO race/NN tomorrow/NN Deuxième étape On applique les règles apprises statistiquement qui changent des étiquettes en fonction du contexte Changer NN en VB après TO expected/VBN to/TO race/VB tomorrow/NN Étiquetage par règles apprises statistiquement Deux algorithmes d'apprentissage Pour la première étape Le lexique donnant l'étiquette la plus fréquente pour chaque token est obtenu à partir d'un corpus étiqueté Pour la deuxième étape Entrées : le lexique de la première étape ; un corpus étiqueté ; des formes de règles Sorties : un ensemble de règles étiqueter le texte du corpus avec le lexique de la première étape tant que les résultats ne sont pas assez bons examiner toutes les règles sélectionner celle qui donne le meilleur étiquetage remplacer l'ancien étiquetage par celui obtenu Étiquetage par règles apprises statistiquement Pour la deuxième étape Les règles peuvent être des arbres de décision Chaque noeud de l'arbre correspond à un critère (question), et chaque noeud fils à une réponse possible Chaque feuille correspond à une décision Exemple de jeu de critères : - étiquette de l'avant-dernier token avant - étiquette du dernier token avant - forme du token, s'il est fréquent - les 2 premières lettres du token - les 3 dernières lettres du token - particularités typographiques du token (majuscules, guillemets, tiret...) - forme du token après, s'il est fréquent - particularités typographiques du token après (majuscules, guillemets, tiret...) Étiquetage par modèle de Markov appris statistiquement Probabilité qu'un mot étiqueté TO soit suivi d'un mot étiqueté NN : P(NN|TO) = 0,021 P(VB|TO) = 0,34 Probabilité qu'un mot étiqueté NN soit race : P(race|NN) = 0,00041 P(race| VB) = 0,00003 Probabilité qu'un mot étiqueté TO soit suivi de race/NN : P(NN|TO) P(race|NN) = 0,000007 P(VB|TO) P(race| VB) = 0,00001 Conclusion L'étiquette correcte de race dans to race est probablement VB