Désuffixation -- Algorithme de Porter

publicité
Désuffixation – Algorithme de Porter
Thierry Lecroq
Université de Rouen
FRANCE
Thierry Lecroq (Univ. Rouen)
Désuffixation
1 / 22
But : avoir la même forme de base pour des mots de la même famille
Conçu pour l’anglais, adaptable à d’autres langues (français, ...)
Thierry Lecroq (Univ. Rouen)
Désuffixation
2 / 22
Plan
1
Notations
2
Algorithme
Thierry Lecroq (Univ. Rouen)
Désuffixation
3 / 22
Consonne ou voyelle
v représente une voyelle (y est considéré comme une voyelle s’il est
précédé par une consonne)
c représente une consonne
V représente une suite de voyelles
C représente une suite de consonnes
Thierry Lecroq (Univ. Rouen)
Désuffixation
4 / 22
De la mesure
Un mot en anglais peut être de l’une des 4 formes suivantes :
CV CV · · · C
CV CV · · · V
V CV C · · · C
V CV C · · · V
ce qui peut se représenter par
[C]V CV C · · · [V ]
ou
[C](V C)m [V ]
où m est appelée la mesure d’un mot.
Thierry Lecroq (Univ. Rouen)
Désuffixation
5 / 22
Mesurons la mesure
m = 0 : tree, by
m = 1 : trouble, oats, trees, ivy
m = 2 : troubles, private, oaten, orrery
Thierry Lecroq (Univ. Rouen)
Désuffixation
6 / 22
Règles
Les règles de désuffixation sont exprimées sous la forme
(condition) S1 → S2
ce qui signifie que si un mot se termine par S1 et que le préfixe satisfait la
condition alors le suffixe S1 est remplacé par S2
Thierry Lecroq (Univ. Rouen)
Désuffixation
7 / 22
Condition
∗e : le préfixe se termine par la lettre e
∗v∗ : le préfixe contient une voyelle
∗d : le préfixe se termine par une consonne doublée
∗o : le préfixe se termine par cvc où le second c n’est ni w, ni x, ni y
Il est possible d’utiliser des opérateurs booléens : et, ou, non
Thierry Lecroq (Univ. Rouen)
Désuffixation
8 / 22
À chaque étape seule la règle capturant le plus long S1 s’applique
Thierry Lecroq (Univ. Rouen)
Désuffixation
9 / 22
Plan
1
Notations
2
Algorithme
Thierry Lecroq (Univ. Rouen)
Désuffixation
10 / 22
Étape 1a
sses
ies
→
→
ss
i
ss
s
→
→
ss
caresses
ponies
ties
caress
cats
Thierry Lecroq (Univ. Rouen)
→
→
→
→
→
caress
poni
ti
caress
cat
Désuffixation
11 / 22
Étape 1b
(m > 0)eed
→
(∗v∗)ed
→
(∗v∗)ing
→
ee
at
→ ate
bl
→ ble
iz
→ ize
(∗d et non (∗l ou ∗ s ou
hopp(ing) → hop
tann(ed) → tan
fall(ing) → fall
hiss(ing) → hiss
fizz(ed) → fizz
(m = 1) et ∗ o → e
Thierry Lecroq (Univ. Rouen)
feed
→ feed
agreed
→ agree
plastered
→ plaster
bled
→ bled
motoring
→ motor
sing
→ sing
conflat(ed) → conflate
troubl(ed)
→ trouble
siz(ed)
→ size
∗ z)) → lettre non doublée
fail(ing)
(filing)
Désuffixation
→
→
fail
file
12 / 22
Étape 1c
(∗v∗)y
→
i
happy
sky
Thierry Lecroq (Univ. Rouen)
→
→
happi
sky
Désuffixation
13 / 22
Étape 2
(m > 0)ational
(m > 0)tional
→
→
ate
TION
(m > 0)enci
(m > 0)anci
(m > 0)izer
(m > 0)abli
(m > 0)alli
(m > 0)entli
(m > 0)eli
(m > 0)ousli
(m > 0)ization
(m > 0)ation
(m > 0)ator
(m > 0)alism
(m > 0)iveness
(m > 0)fulness
(m > 0)ousness
(m > 0)aliti
(m > 0)iviti
(m > 0)biliti
→
→
→
→
→
→
→
→
→
→
→
→
→
→
→
→
→
→
ence
ance
ize
able
al
ent
e
ous
ize
ate
ate
al
ive
ful
ous
al
ive
ble
Thierry Lecroq (Univ. Rouen)
relational
conditional
rational
valenci
hesitanci
digitizer
conformabli
radicalli
differentli
vileli
analogousli
vietnamization
predication
operator
feudalism
decisiveness
hopefulness
callousness
formaliti
sensitiviti
sensibiliti
Désuffixation
→
→
→
→
→
→
→
→
→
→
→
→
→
→
→
→
→
→
→
→
→
relate
condition
rational
valence
hesitance
digitize
conformable
radical
different
vile
analogous
vietnamize
predicate
operate
feudal
decisive
hopeful
callous
formal
sensitive
sensible
14 / 22
Étape 3
(m > 0)icate
(m > 0)ative
(m > 0)alize
(m > 0)iciti
(m > 0)ical
(m > 0)ful
(m > 0)ness
→
→
→
→
→
→
→
Thierry Lecroq (Univ. Rouen)
ic
al
ic
ic
triplicate
formative
formalize
electriciti
electrical
hopeful
goodness
Désuffixation
→
→
→
→
→
→
→
triplic
form
formal
electric
electric
hope
good
15 / 22
Étape 4
(m > 1)al
(m > 1)ance
(m > 1)ence
(m > 1)er
(m > 1)ic
(m > 1)able
(m > 1)ible
(m > 1)ant
(m > 1)ement
(m > 1)ment
(m > 1)ent
(m > 1 et (∗s ou ∗ t))ion
(m > 1)ou
(m > 1)ism
(m > 1)ate
(m > 1)iti
(m > 1)ous
(m > 1)ive
(m > 1)ize
Thierry Lecroq (Univ. Rouen)
→
→
→
→
→
→
→
→
→
→
→
→
→
→
→
→
→
→
→
revival
allowance
inference
airliner
gyroscopic
adjustable
defensible
irritant
replacement
adjustment
dependent
adoption
homologou
communism
activate
angulariti
homologous
effective
bowdlerize
Désuffixation
→
→
→
→
→
→
→
→
→
→
→
→
→
→
→
→
→
→
→
reviv
allow
infer
airlin
gyroscop
adjust
defens
irrit
replac
adjust
depend
adopt
homolog
commun
activ
angular
homolog
effect
bowdler
16 / 22
Étape 5a
(m > 1)e
→
(m > 1 et non ∗ o)e
→
Thierry Lecroq (Univ. Rouen)
probate
rate
cease
Désuffixation
→
→
→
probat
rate
cease
17 / 22
Étape 5b
(m > 1 et ∗ d et ∗ l) → lettre non doublée
controll →control
roll→roll
Thierry Lecroq (Univ. Rouen)
Désuffixation
18 / 22
generalizations
→generalization étape 1
→generalize étape 2
→general étape 3
→gener étape 4
Thierry Lecroq (Univ. Rouen)
Désuffixation
19 / 22
oscillators
→oscillator étape 1
→oscillate étape 2
→oscill étape 4
→oscil étape 5
Thierry Lecroq (Univ. Rouen)
Désuffixation
20 / 22
sur 10 000 mots
étape 1
étape 2
étape 3
étape 4
étape 5
non réduits
3597
766
327
2424
1373
3650
6370 formes réduites
Thierry Lecroq (Univ. Rouen)
Désuffixation
21 / 22
Référence
M. F. Porter
An Algorithm for Suffix Stripping
Program, 14(3), 130–137, 1980
Thierry Lecroq (Univ. Rouen)
Désuffixation
22 / 22
Téléchargement