CM Recherche de motifs (algorithmique de texte)

Algorithmique du texte

Recherche de motifs

Introduction

Rechercher un motif dans un texte, indexer des donn´

ees textuelles,

expliciter les r´

egularit´

es d’un texte sont des probl`

emes omnipr´

esents en

informatique :

´

editeur de texte, moteur de recherche, bases de donn´

ees tex-

tuelles, analyse de s´

equences biologiques, compression

Contingences pratiques :

•on travaille sur des donn´

ees de grande taille

⇒il est imp´

eratif de trouver des algorithmes qui soient de petites

complexit´

es `

a la fois en temps et en espace

•les donn´

ees sont des s´

equences de caract`

eres et n’ont pas de

structure explicite

⇒d´

eﬁnir des algorithmes rapides n´

ecessite de d´

eﬁnir les structures

ad´

equates pour repr´

esenter et manipuler eﬃcacement les cha

ˆ

ınes de

caract`

eres (structures pas trop coˆ

uteuses `

a construire et peu

gourmandes en espace)

2

Notations

Un alphabet Σ: un ensemble ﬁni de symboles, appel´

es lettres ou

caract`

eres

Un motif ou un texte sur l’alphabet Σ: une suite de lettres de Σ

La longueur d’un mot w, not´

ee |w|: le nombre de lettres du mot

Le mot vide, i.e., le mot de longueur 0:ε

Par convention, on indice les lettres d’un mot `

a partir de 0:

w=w[0]w[1]. . . w[n−1]avec n=|w|

La s´

equence de lettres partant de la position iet de longueur j:

w[i:i+j] = w[i]w[i+1]. . . w[i+j−1]

Σ∗: l’ensemble de tous les mots sur Σ

Σ+: l’ensemble de tous les mots non vides sur Σ

3

Notations

Les pr´eﬁxes de w:

Pref(w) = {x: il existe y∈Σ∗tel que w=xy}

Les suﬃxes de w:

Suf(w) = {y: il existe x∈Σ∗tel que w=xy}

Les facteurs de w:

Fact(w) = {z: il existe x,y∈Σ∗tel que w=xzy}

Un pr´

eﬁxe, suﬃxe ou facteur d’un mot west propre, s’il est diﬀ´

erent de

wlui-mˆ

eme.

Exemple

w = abbaac

Pref(w) =

{ε, a,ab,abb,abba,abbaa,abbaac}

Suf(w) =

{ε, c,ac,aac,baac,bbaac,abbaac}

Fact(w) =

{ε, a,b,c,aa,ab,ac,ba,bb,aac,abb,baa,bba,

abba,baac,bbaa,abbaa,bbaac,abbaac}

4

Notations

Les pr´eﬁxes de w:

Pref(w) = {x: il existe y∈Σ∗tel que w=xy}

Les suﬃxes de w:

Suf(w) = {y: il existe x∈Σ∗tel que w=xy}

Les facteurs de w:

Fact(w) = {z: il existe x,y∈Σ∗tel que w=xzy}

Un pr´

eﬁxe, suﬃxe ou facteur d’un mot west propre, s’il est diﬀ´

erent de

wlui-mˆ

eme.

Exemple

w = abbaac

Pref(w) = {ε, a,ab,abb,abba,abbaa,abbaac}

Suf(w) = {ε, c,ac,aac,baac,bbaac,abbaac}

Fact(w) = {ε, a,b,c,aa,ab,ac,ba,bb,aac,abb,baa,bba,

abba,baac,bbaa,abbaa,bbaac,abbaac}

4

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

32

33

34

35

36

37

38

39

CM Recherche de motifs (algorithmique de texte)

Documents connexes

Faire une suggestion

Produits

Assistance

Produits

Assistance

CM Recherche de motifs (algorithmique de texte)

Documents connexes

Faire une suggestion

Produits

Assistance

Ajouter ce document à la (aux) collections

Ajouter ce document à enregistré

Suggérez-nous comment améliorer StudyLib