Document

publicité
Cours 4
Étiquettes lexicales
Catégories grammaticales
En anglais parts of speech (POS)
Exemple de liste de catégories grammaticales
nom, verbe, adjectif, adverbe, pronom, préposition, conjonction,
déterminant
En général, 10 à 15 catégories par langue
Information sur les voisins du mot
Un pronom est souvent suivi d'un verbe : il intervient
Un déterminant est souvent suivi d'un nom : les annonces
Information sur la prononciation du mot
Président peut être un nom : Le président de séance est en retard
Président peut être un verbe : Ils président la séance à tour de rôle
La prononciation est différente
Les poules du couvent couvent
Catégories grammaticales
Catégories grammaticales et suffixes
vaccine est un verbe, on peut le regrouper avec vacciner
féminine est un adjectif, on peut le regrouper avec féminin
Application : la recherche d'informations
Catégories grammaticales et pertinence
Les noms sont souvent pertinents : balle, film, banque...
Les prépositions le sont moins : selon, depuis, malgré...
une croix en or et pierres précieuses... nom
Or la version de la chanson...
conjonction
Définition des catégories grammaticales
Par les suffixes
Deux mots qui prennent les mêmes suffixes ont des chances d'appartenir à
la même catégorie
vaccine, vaccinent, vacciné, vaccines/juge, jugent, jugé, juges verbes
parent, parents, parente, parentes/ami, amis, amie, amies
noms
Par les contextes
Deux mots qui acceptent les mêmes contextes ont des chances d'appartenir
à la même catégorie
Les représentants des pays concernés
Les représentants des partis concernés noms
Le TGV n'avait pas prévu de s'arrêter
Le TGV n'avait pas cessé de s'arrêter
verbes
Catégories ouvertes/fermées
Catégories fermées
Les éléments sont en nombre limité et fixe
Mots grammaticaux (jouent un rôle important dans la grammaire), courts
et fréquents
Prépositions : à de par pour sans selon depuis malgré...
Quelques dizaines
On en crée rarement de nouvelles
Catégories ouvertes
Les éléments sont nombreux et de nouveaux sont créés continuellement
Noms : futon MP3 pseudotéléspectateur triréacteur...
Quelques dizaines de milliers
Verbes : faxer surréglementer sursubventionner télécopier...
Quelques milliers
Catégories ouvertes
Noms ou substantifs
Souvent précédés d'un déterminant
des annonces
Varient entre singulier et pluriel
une annonce/des annonces
Sous-catégories :
noms communs
bateau, chaise, relation, élève
noms propres
Paris, Laporte, Lip
Verbes
Varient en temps
il annonce
il annoncera
personne
il annonce
nous annonçons
Sous-catégories :
auxiliaires
pouvoir, devoir, avoir, être...
Catégories ouvertes
Adjectifs
Varient entre singulier et pluriel
masculin et féminin
normal
normaux
Adverbes
Généralement déplaçables dans une phrase
Souvent, le bus s'arrête ici
Le bus, souvent, s'arrête ici
Le bus s'arrête souvent ici
Le bus s'arrête ici souvent
normaux
normales
Catégories fermées
Prépositions
à de par pour sans selon sur sous avec depuis malgré...
Devant des noms ou des verbes : à des annonces pour annoncer
Conjonctions
et ou mais car...
Entre deux séquences analogues : des programmes et des données
que quand si comme lorsque...
Devant une phrase incluse dans une autre : Je viendrai si je peux
Catégories fermées
Déterminants
un une des du le la les chaque deux trois quatre beaucoup mon...
Devant des noms :
des annonces
beaucoup d'annonces
Pronoms
je tu il elle on nous vous moi toi lui ceci cela qui quoi que quelqu'un...
Étiquettes lexicales
En anglais tags
Je viendrai si je peux
Je,PRO:1s viendrai,V:F1s si,CONJS je,PRO:1s peux,V:P1s
Un objet qui identifie pour chaque token-mot
- la catégorie grammaticale
- éventuellement d'autres propriétés (temps, personne,
nombre...)
On peut aussi étiqueter les symboles de ponctuation
Étiquettes lexicales non structurées
Je,PP viendrai,VBF si,IN je,PP peux,VBP
Chaque étiquette représente une catégorie généralement un peu
plus précise qu'une catégorie grammaticale
Exemples
PP
pronom personnel
VBF
verbe conjugué au futur
IN
préposition ou conjonction de subordination
Jeu d'étiquettes (tagset)
Ensemble d'étiquettes
Pour l'anglais, généralement 50 à 150 étiquettes
Étiquettes lexicales structurées
Je,PRO:1s viendrai,V:F1s si,CONJS je,PRO:1s peux,V:P1s
Chaque étiquette donne séparément
- la catégorie grammaticale
- d'autres propriétés éventuelles :
- temps (présent, futur, passé...)
- personne (1, 2, 3)
- genre (masculin, féminin)
- nombre (singulier, pluriel)
etc.
Traits flexionnels
Étiquettes lexicales structurées
viendrai,V:F1s
Paires attribut-valeur
partOfSpeech = verb
tense = future
person = 1
number = singular
attributs (features)
valeurs (values)
ABR
ADJ
ADV
DET:ART
DET:POS
INT
KON
NAM
NOM
NUM
PRO
PRO:DEM
PRO:IND
PRO:PER
PRO:POS
PRO:REL
PRP
abreviation
adjective
adverb
article
possessive pronoun (ma, ta, ...)
interjection
conjunction
proper name
noun
numeral
pronoun
demonstrative pronoun
indefinite pronoun
personal pronoun
possessive pronoun (mien, tien, ...)
relative pronoun
preposition
PRP:det
PUN
PUN:cit
SENT
SYM
VER:cond
VER:futu
VER:impe
VER:impf
VER:infi
VER:pper
VER:ppre
VER:pres
VER:simp
VER:subi
VER:subp
preposition plus article (au,du,aux,des)
punctuation
punctuation citation
sentence tag
symbol
verb conditional
verb futur
verb imperative
verb imperfect
verb infinitive
verb past participle
verb present participle
verb present
verb simple past
verb subjunctive imperfect
verb subjunctive present
Racinisation
Pour la recherche d'informations, les variations de forme des mots
ne sont pas très pertinentes et augmentent inutilement le nombre
de dimensions de l'espace vectoriel
Exemples
vaccine, vaccinent, vacciné, vaccines...
La racinisation (stemming) consiste à remplacer toutes ces variantes
par vacciner
ou même vaccine, vaccinent, vacciné, vaccines, vaccination,
vaccinal... par vaccin
On n'a pas besoin que ce soit un mot correct, il suffit que ce soit le
même pour tous
Le raciniseur de Porter (1980)
Substitution de suffixes
ational --> ate
relational --> relate
ing --> 
motoring --> motor
Plusieurs passes
Passe 1
ies --> i
capabilities --> capabiliti
Passe 4
(m>0)biliti --> ble
capabiliti --> capable
m = nombre de séquences voyelle/consonne
Exemples
capabilities
m=5
capa m = 1
Step 1a
SSES -> SS
IES -> I
SS
S
-> SS
->
caresses
ponies
ties
caress
cats
->
->
->
->
->
caress
poni
ti
caress
cat
feed
agreed
plastered
bled
motoring
sing
->
->
->
->
->
->
feed
agree
plaster
bled
motor
sing
Step 1b
(m>0) EED -> EE
(*v*) ED
->
(*v*) ING ->
If the second or third of the rules in Step 1b is successful, the following is done:
AT -> ATE
BL -> BLE
IZ -> IZE
(*d and not (*L or *S or *Z))
(m=1 and *o) -> E
conflat(ed) -> conflate
troubl(ed)
-> trouble
siz(ed)
-> size
-> single letter
hopp(ing)
-> hop
tann(ed)
-> tan
fall(ing)
-> fall
hiss(ing)
-> hiss
fizz(ed)
-> fizz
fail(ing)
-> fail
fil(ing)
-> file
The rule to map to a single letter causes the removal of one of the double letter pair.
*v*
*d
*o
contains a vowel (a, e, i, o, u, or y preceded by a consonant)
ends with a double consonant, e.g. tt, ss
ends with cvc, where the second c is not w, x or y
Step 1c
(*v*) Y -> I
happy
sky
->
->
happi
sky
Step 2
(m>0) ATIONAL ->
(m>0) TIONAL ->
ATE
TION
(m>0)
(m>0)
(m>0)
(m>0)
(m>0)
(m>0)
(m>0)
(m>0)
(m>0)
(m>0)
(m>0)
(m>0)
(m>0)
(m>0)
(m>0)
(m>0)
(m>0)
(m>0)
ENCE
ANCE
IZE
ABLE
AL
ENT
E
OUS
IZE
ATE
ATE
AL
IVE
FUL
OUS
AL
IVE
BLE
ENCI
ANCI
IZER
ABLI
ALLI
ENTLI
ELI
OUSLI
IZATION
ATION
ATOR
ALISM
IVENESS
FULNESS
OUSNESS
ALITI
IVITI
BILITI
->
->
->
->
->
->
->
->
->
->
->
->
->
->
->
->
->
->
relational
->
conditional
->
rational
->
valenci
->
hesitanci
->
digitizer
->
conformabli
->
radicalli
->
differentli
->
vileli
- >
analogousli
->
vietnamization ->
predication
->
operator
->
feudalism
->
decisiveness
->
hopefulness
->
callousness
->
formaliti
->
sensitiviti
->
sensibiliti
->
relate
condition
rational
valence
hesitance
digitize
conformable
radical
different
vile
analogous
vietnamize
predicate
operate
feudal
decisive
hopeful
callous
formal
sensitive
sensible
Step 3
(m>0)
(m>0)
(m>0)
(m>0)
(m>0)
(m>0)
(m>0)
ICATE
ATIVE
ALIZE
ICITI
ICAL
FUL
NESS
->
->
->
->
->
->
->
IC
AL
IC
IC
triplicate
formative
formalize
electriciti
electrical
hopeful
goodness
->
->
->
->
->
->
->
triplic
form
formal
electric
electric
hope
good
revival
allowance
inference
airliner
gyroscopic
adjustable
defensible
irritant
replacement
adjustment
dependent
adoption
homologou
communism
activate
angulariti
homologous
effective
bowdlerize
->
->
->
->
->
->
->
->
->
->
->
->
->
->
->
->
->
->
->
reviv
allow
infer
airlin
gyroscop
adjust
defens
irrit
replac
adjust
depend
adopt
homolog
commun
activ
angular
homolog
effect
bowdler
Step 4
(m>1) AL
->
(m>1) ANCE ->
(m>1) ENCE ->
(m>1) ER
->
(m>1) IC
->
(m>1) ABLE ->
(m>1) IBLE ->
(m>1) ANT
->
(m>1) EMENT ->
(m>1) MENT ->
(m>1) ENT
->
(m>1 and (*S or *T)) ION ->
(m>1) OU
->
(m>1) ISM
->
(m>1) ATE
->
(m>1) ITI
->
(m>1) OUS
->
(m>1) IVE
->
(m>1) IZE
->
*S
ends with s (and the same for other letters)
Step 5a
(m>1) E
->
(m=1 and not *o) E ->
probate
rate
cease
->
->
->
probat
rate
ceas
->
->
control
roll
Step 5b
(m > 1 and *d and *L) -> single letter
controll
roll
Le raciniseur de Porter (1980)
Exemples d'imperfections
Paires regroupées
numerical numerous
university universe
Paires non regroupées
noisy
--> noisi
sparsity
--> sparsiti
--> numer
--> univers
noise --> nois
sparse --> spars
Étiquetage
Attribution d'une étiquette lexicale à chaque token (mot ou symbole
de ponctuation)
Entrées : un texte tokenisé et un jeu d'étiquettes
Sortie : le texte étiqueté
Applications
recherche d'informations
reconnaissance de parole
analyse syntaxique
Ambiguïtés lexicales
La poste livre le colis dans un délai d'une semaine
verbe
Le livre parvient à l'acheteur en une semaine
nom
Étiquetage par règles écrites à la main
Première étape
On consulte un lexique qui donne toutes les étiquettes possibles des
tokens-mots
Il,PRO:3s est,V:P3s,A:ms,A:mp,A:fs,A:fp,ADV fin,A:ms,N:fs ./.
Deuxième étape
On applique des règles écrites à la main qui éliminent des étiquettes
en fonction du contexte
if (+1A/ADV/QUANT); (+2 SENT-LIM); (NOT -1 SVOC/A);
then eliminate non-ADV tags
else eliminate ADV tag
Étiquetage par règles apprises
statistiquement (Brill, 1995)
Première étape
On consulte un lexique qui donne l'étiquette la plus fréquente pour
chaque token
race/NN
(plus souvent nom que verbe)
expected/VBN to/TO race/NN tomorrow/NN
Deuxième étape
On applique les règles apprises statistiquement qui changent des
étiquettes en fonction du contexte
Changer NN en VB après TO
expected/VBN to/TO race/VB tomorrow/NN
Étiquetage par règles apprises
statistiquement
Deux algorithmes d'apprentissage
Pour la première étape
Le lexique donnant l'étiquette la plus fréquente pour chaque token
est obtenu à partir d'un corpus étiqueté
Pour la deuxième étape
Entrées : le lexique de la première étape ; un corpus étiqueté ; des
formes de règles
Sorties : un ensemble de règles
étiqueter le texte du corpus avec le lexique de la première étape
tant que les résultats ne sont pas assez bons
examiner toutes les règles
sélectionner celle qui donne le meilleur étiquetage
remplacer l'ancien étiquetage par celui obtenu
Étiquetage par règles apprises
statistiquement
Pour la deuxième étape
Les règles peuvent être des arbres de décision
Chaque noeud de l'arbre correspond à un critère (question), et
chaque noeud fils à une réponse possible
Chaque feuille correspond à une décision
Exemple de jeu de critères :
- étiquette de l'avant-dernier token
avant
- étiquette du dernier token avant
- forme du token, s'il est fréquent
- les 2 premières lettres du token
- les 3 dernières lettres du token
- particularités typographiques du token
(majuscules, guillemets, tiret...)
- forme du token après, s'il est fréquent
- particularités typographiques du token
après (majuscules, guillemets,
tiret...)
Étiquetage par modèle de Markov
appris statistiquement
Probabilité qu'un mot étiqueté TO soit suivi d'un mot étiqueté NN :
P(NN|TO) = 0,021
P(VB|TO) = 0,34
Probabilité qu'un mot étiqueté NN soit race :
P(race|NN) = 0,00041
P(race| VB) = 0,00003
Probabilité qu'un mot étiqueté TO soit suivi de race/NN :
P(NN|TO) P(race|NN) = 0,000007
P(VB|TO) P(race| VB) = 0,00001
Conclusion
L'étiquette correcte de race dans to race est probablement VB
Téléchargement