Désuffixation – Algorithme de Porter Thierry Lecroq Université de Rouen FRANCE Thierry Lecroq (Univ. Rouen) Désuffixation 1 / 22 But : avoir la même forme de base pour des mots de la même famille Conçu pour l’anglais, adaptable à d’autres langues (français, ...) Thierry Lecroq (Univ. Rouen) Désuffixation 2 / 22 Plan 1 Notations 2 Algorithme Thierry Lecroq (Univ. Rouen) Désuffixation 3 / 22 Consonne ou voyelle v représente une voyelle (y est considéré comme une voyelle s’il est précédé par une consonne) c représente une consonne V représente une suite de voyelles C représente une suite de consonnes Thierry Lecroq (Univ. Rouen) Désuffixation 4 / 22 De la mesure Un mot en anglais peut être de l’une des 4 formes suivantes : CV CV · · · C CV CV · · · V V CV C · · · C V CV C · · · V ce qui peut se représenter par [C]V CV C · · · [V ] ou [C](V C)m [V ] où m est appelée la mesure d’un mot. Thierry Lecroq (Univ. Rouen) Désuffixation 5 / 22 Mesurons la mesure m = 0 : tree, by m = 1 : trouble, oats, trees, ivy m = 2 : troubles, private, oaten, orrery Thierry Lecroq (Univ. Rouen) Désuffixation 6 / 22 Règles Les règles de désuffixation sont exprimées sous la forme (condition) S1 → S2 ce qui signifie que si un mot se termine par S1 et que le préfixe satisfait la condition alors le suffixe S1 est remplacé par S2 Thierry Lecroq (Univ. Rouen) Désuffixation 7 / 22 Condition ∗e : le préfixe se termine par la lettre e ∗v∗ : le préfixe contient une voyelle ∗d : le préfixe se termine par une consonne doublée ∗o : le préfixe se termine par cvc où le second c n’est ni w, ni x, ni y Il est possible d’utiliser des opérateurs booléens : et, ou, non Thierry Lecroq (Univ. Rouen) Désuffixation 8 / 22 À chaque étape seule la règle capturant le plus long S1 s’applique Thierry Lecroq (Univ. Rouen) Désuffixation 9 / 22 Plan 1 Notations 2 Algorithme Thierry Lecroq (Univ. Rouen) Désuffixation 10 / 22 Étape 1a sses ies → → ss i ss s → → ss caresses ponies ties caress cats Thierry Lecroq (Univ. Rouen) → → → → → caress poni ti caress cat Désuffixation 11 / 22 Étape 1b (m > 0)eed → (∗v∗)ed → (∗v∗)ing → ee at → ate bl → ble iz → ize (∗d et non (∗l ou ∗ s ou hopp(ing) → hop tann(ed) → tan fall(ing) → fall hiss(ing) → hiss fizz(ed) → fizz (m = 1) et ∗ o → e Thierry Lecroq (Univ. Rouen) feed → feed agreed → agree plastered → plaster bled → bled motoring → motor sing → sing conflat(ed) → conflate troubl(ed) → trouble siz(ed) → size ∗ z)) → lettre non doublée fail(ing) (filing) Désuffixation → → fail file 12 / 22 Étape 1c (∗v∗)y → i happy sky Thierry Lecroq (Univ. Rouen) → → happi sky Désuffixation 13 / 22 Étape 2 (m > 0)ational (m > 0)tional → → ate TION (m > 0)enci (m > 0)anci (m > 0)izer (m > 0)abli (m > 0)alli (m > 0)entli (m > 0)eli (m > 0)ousli (m > 0)ization (m > 0)ation (m > 0)ator (m > 0)alism (m > 0)iveness (m > 0)fulness (m > 0)ousness (m > 0)aliti (m > 0)iviti (m > 0)biliti → → → → → → → → → → → → → → → → → → ence ance ize able al ent e ous ize ate ate al ive ful ous al ive ble Thierry Lecroq (Univ. Rouen) relational conditional rational valenci hesitanci digitizer conformabli radicalli differentli vileli analogousli vietnamization predication operator feudalism decisiveness hopefulness callousness formaliti sensitiviti sensibiliti Désuffixation → → → → → → → → → → → → → → → → → → → → → relate condition rational valence hesitance digitize conformable radical different vile analogous vietnamize predicate operate feudal decisive hopeful callous formal sensitive sensible 14 / 22 Étape 3 (m > 0)icate (m > 0)ative (m > 0)alize (m > 0)iciti (m > 0)ical (m > 0)ful (m > 0)ness → → → → → → → Thierry Lecroq (Univ. Rouen) ic al ic ic triplicate formative formalize electriciti electrical hopeful goodness Désuffixation → → → → → → → triplic form formal electric electric hope good 15 / 22 Étape 4 (m > 1)al (m > 1)ance (m > 1)ence (m > 1)er (m > 1)ic (m > 1)able (m > 1)ible (m > 1)ant (m > 1)ement (m > 1)ment (m > 1)ent (m > 1 et (∗s ou ∗ t))ion (m > 1)ou (m > 1)ism (m > 1)ate (m > 1)iti (m > 1)ous (m > 1)ive (m > 1)ize Thierry Lecroq (Univ. Rouen) → → → → → → → → → → → → → → → → → → → revival allowance inference airliner gyroscopic adjustable defensible irritant replacement adjustment dependent adoption homologou communism activate angulariti homologous effective bowdlerize Désuffixation → → → → → → → → → → → → → → → → → → → reviv allow infer airlin gyroscop adjust defens irrit replac adjust depend adopt homolog commun activ angular homolog effect bowdler 16 / 22 Étape 5a (m > 1)e → (m > 1 et non ∗ o)e → Thierry Lecroq (Univ. Rouen) probate rate cease Désuffixation → → → probat rate cease 17 / 22 Étape 5b (m > 1 et ∗ d et ∗ l) → lettre non doublée controll →control roll→roll Thierry Lecroq (Univ. Rouen) Désuffixation 18 / 22 generalizations →generalization étape 1 →generalize étape 2 →general étape 3 →gener étape 4 Thierry Lecroq (Univ. Rouen) Désuffixation 19 / 22 oscillators →oscillator étape 1 →oscillate étape 2 →oscill étape 4 →oscil étape 5 Thierry Lecroq (Univ. Rouen) Désuffixation 20 / 22 sur 10 000 mots étape 1 étape 2 étape 3 étape 4 étape 5 non réduits 3597 766 327 2424 1373 3650 6370 formes réduites Thierry Lecroq (Univ. Rouen) Désuffixation 21 / 22 Référence M. F. Porter An Algorithm for Suffix Stripping Program, 14(3), 130–137, 1980 Thierry Lecroq (Univ. Rouen) Désuffixation 22 / 22