Les langages.

1

Les langages.

Si tu ne joues pas

avec les mots

ils se joueront

de toi !

Nous allons consid´

erer des listes ﬁnies de symboles, et des ensembles homog`

enes de telles listes : d’une

fac¸on g´

en´

erale une liste ﬁnie de symboles s’appellera un

mot

et un ensemble de mots s’appellera un

langage

. Cependant, ce vocabulaire n’est pas adapt´

e`

a toutes les situations :

•Lorsque les symboles sont des caract`

eres, ces listes sont bien des mots au sens courant du terme, mais

un ensemble de mots constitue simplement un lexique. Les mots d’un mˆ

eme ensemble “homog`

ene” con-

stituent

une unit´

elexicale

. Dans le cas qui nous int´

eresse principalement, les unit´

es lexicales sont

les lan-

gages r´

eguliers

dont la d´

eﬁnition se fait au moyen d’expressions formelles appel´

ees

expressions r´

eguli`

eres

:

une telle expression est un “mod`

ele” (ou un “motif”) des mots qui appartiennent `

al’unit

´

e qu’elle d´

eﬁnit.

L’analyse lexicale

,c’est–

`

a–dire l’op´

eration qui consiste `

ad

´

eterminer `

a quelle unit´

e lexicale appartient un

mot donn´

e, se fait au moyen d’

automates ﬁnis

. LEX est un utilitaire qui traduit une sp´

eciﬁcation d’unit´

es

lexicales donn´

ees sous la forme d’expressions r´

eguli`

eres, en un programme d’analyse lexicale, dont le

fonctionnement est bas´

esurlaconsid

´

eration d’automates ﬁnis.

•Lorsque les symboles sont d´

ej`

a des mots (au sens du premier point) ces listes sont

des phrases

et un

ensemble sp´

eciﬁ´

e de telles phrases constitue alors

un langage

:lesr

`

egles qui r´

egissent la formation d’une

phrase d’un langage forment une

grammaire

du langage en question. Les grammaires des langages de

programmation sont simples car ce sont essentiellement des processus inductifs.

L’analyse syntaxique

,

c’est–`

a–dire la mise en ´

evidence de la structure d’une phrase, se fait au moyen d’

automates `

apile

:YACC

est un utilitaire qui traduit la donn´

ee d’une grammaire en un programme d’analyse syntaxique dont le

fonctionnement est bas´

esurlaconsid

´

erationd’unautomate`

apile.

Lesanalyseurssontactifs,c’est–

`

a–dire capables d’effectuer une action `

a chaque reconnaissance d’une

unit´

elexicaleoud’uner

`

egle de grammaire : en particulier, un analyseur lexical (par exemple, produit par

LEX) devra alimenter un analyseur syntaxique (par exemple, produit par YACC) en unit´

es lexicales; ce

dernier est souvent charg´

ed’und

´

ebut de traduction.

Ces deux analyses, appliqu´

ees `

a

un programme source

, sont les premi`

eres ´

etapes de

la compilation

.L’´

etape

suivante est

l’analyse s´

emantique

qui attribue un “sens” au r´

esultat obtenu. Apr`

es cette phase analytique,

vient la production d’

un code machine

:eng

´

en´

eral, on passe par

un code interm´

ediaire

,ind

´

ependant de

toute machine, qui permet d’effectuer diverses op´

erations importantes, notamment

l’optimisation

(une

expression optimiste qui signiﬁe plutˆ

ot “am´

elioration”).

ne telle pr´

esentation de la compilation est tr`

es sch´

ematique (en particulier, les analyses ne sont

pas ind´

ependantes l’une de l’autre), mais il faut savoir que les outils qui sont `

a notre disposition

(les th´

eories d´

evelopp´

ees dans le cours ainsi que LEX et YACC, qui en appliquent une grande partie)

permettent effectivement de construire des compilateurs pour des langages non triviaux.

Dans ce chapitre, nous donnons les notions de base relatives aux langages : il s’agit de poser quelques

d´

eﬁnitions et de v´

eriﬁer des propri´

et´

es qui seront utiles dans toute la suite.

Th´eorie des langages. M.M Institut Galil´ee 2004

2Chapitre 1

1–Lesmots.

•Nous appellerons

alphabet

un ensemble Ade

symboles

: cette expression est souvent `

a prendre dans

le sens courant de

lettres

ou de

caract`

eres

; nous reviendrons `

alaﬁndecettesectionsurlafac¸on dont on

doit l’interpr´

eter de fac¸on plus g´

en´

erale.

A partir du chapitre 2, nous ne consid´

ererons que des alphabets ﬁnis mais cette restriction n’est jamais

utiledanslepr

´

esent chapitre.

•Un mot est une “chaˆ

ıne de caract`

eres” ou plutˆ

ot, une “chaˆ

ıne de symboles” : la d´

eﬁnition qui suit

n’est qu’une repr´

esentation sous forme de tableau, ind´

ependante de tout langage de programmation

particulier.

Les mots

Un mot

sur l’alphabet Aest une application

u:{1,...,m}→A

o`

umest un entier appel´

e

la longueur

de uet not´

e|u|et o`

u{1,...,m}est l’ensemble des entiers naturels

itels que 1≤i≤m.

Chaque valeur u(i)prise par uest appel´

ee

un symbole

,

une lettre

ou

un caract`

ere

de u(lorsque l’on pense

`

aucomme `

aunv

´

eritable tableau, on peut noter u[i]au lieu de u(i)). Si u(i)=x,ondiraqueu(i)

est

une occurrence de

x

dans

u:unmotpeut´

evidemment comporter plusieurs occurrences distinctes d’un

mˆ

eme symbole.

L’ensemble des mots sur un alphabet

L’ensemble des mots sur l’alphabet

A

est d´

esign´

epar

A∗

.

1.1 – D´

eﬁnitions de base.

Soit u∈A

∗.

•Lorsque |u|=0,u:∅→Aest

le mot sans caract`

ere

,quiestnot

´

eε.

Attention.

e mot est commun `

a tous les alphabets et bien que εsoit traditionnellement appel´

e“lemotvide”,

c’est tout de mˆ

eme un mot; je veux dire qu’il ne joue pas un rˆ

ole comparable `

a celui de l’ensemble

vide : pour faire une analogie avec les nombres entiers, il se comporte comme 1et non pas comme 0.

•Lorsque |u|=1,u:{1}→Aest d´

eﬁni par le seul caract`

ere u(1) ∈A.Ilestnatureld’identiﬁerun

´

el´

ement de Aau mot de longueur 1qu’il d´

eﬁnit.

Cette identiﬁcation se traduit par une convention d’´

ecriture (on dit aussi un “abus de notation”) que l’on

peut symboliser par

A⊆A

∗

•L’ o p ´

eration d’

adjonction d’une occurrence `

adroite

d’un mot A∗×A → A

∗se d´

eﬁnit de la fac¸on

suivante :

pour tout mot u:{1,...,m}→Aet tout symbole x∈A,ux :{1,...,m+1}→Aest le mot d´

eﬁni

par :

ux(i)=u(i)pour tout i∈{1,...,m},

ux(m+1)=x.

Par exemple, εx =xsi, comme il a ´

et´

e convenu ci–dessus, on identiﬁe le symbole xavec le mot de

longueur 1qu’il d´

eﬁnit.

On doit aussi remarquer que |ux|=|u|+1.

M.M Institut Galil´ee 2004 Les langages.

Section 1 3

1.2 – R´

ecurrence sur les mots bas´

ee sur l’adjonction d’occurrences `

adroite.

Un cas important de raisonnement par r´

ecurrence est bas´

e sur la construction des ´

el´

ements de A∗,`

apartir

du mot vide, par l’op´

eration d’adjonction d’une occurrence `

adroite.

Les deux clauses suivantes :

–ε∈A

∗

– pour tout x∈A:siu∈A

∗alors ux ∈A

∗

constituent une d´

eﬁnition inductive de A∗,c’est–

`

a–dire qu’un ´

el´

ement de A∗ou bien est εou bien

s’obtient `

apartird’un´

el´

ement de A∗par adjonction d’un caract`

ere `

adroite.Deplus,chaque´

el´

ement

de A∗admet une construction unique `

apartirdeεpar adjonctions successives de caract`

eres `

adroite.

Voici un exemple d’une telle construction :

ε(´

etape initiale)

εa =a(adjonction de a)

aa (adjonction de a)

aab (adjonction de b)

En tenant compte de la remarque ci–dessus, il est clair que la mention du mot sans caract`

ere εn’est

indispensable que dans l’´

etape initiale. On convient tout naturellement de ne plus l’´

ecrire d`

es qu’un mot

comporte au moins une occurrence d’un symbole.

On est conduit `

alarepr

´

esentation naturelle suivante : u:{1,...,m}→Aest repr´

esent´

eparla

juxtaposition de ses caract`

eres successifs, c’est–`

a–dire par u(1) ...u(m).

Lorsqu’elle n´

ecessitel’usagedepointill

´

es (c’est–`

a–dire lorsque l’on parle d’un mot “en g´

en´

eral”) cette

repr´

esentation est une illustration qui permet d’avoir une intuition qui est souvent utile, mais pas de

faire des raisonnements concrets, traduisibles en algorithmes! Elle est cependant parfaitement correcte et

utile lorsqu’on a affaire `

a des mots connus explicitement, par exemple : le mot u:{1,2,3,4}→{a, b}tel

que u(1) = u(2) = u(4) = aet u(3) = bsera not´

eu=aaba.

Le raisonnement par

r´

ecurrence sur les mots

bas´

esurlad

´

eﬁnition inductive de A∗pr´

ec´

edente s’exprime

ainsi :

R´

ecurrence sur les mots

Soit

P[u]

un ´

enonc´

eausujetde

u∈A

∗

.Alors,silesdeuxpropri

´

et´

es suivantes sont vraies :

–

P[ε]

– pour tout

u∈A

∗

et tout

x∈A

,

P[u]

implique

P[ux]

on peut conclure que

P[u]

est vraie pour tout

u∈A

∗

.

Avec ces notations, on signale un tel raisonnement en disant qu’on va faire une preuve “par r´

ecurrence sur

u”.

es notions de base relatives aux mots peuvent se d´

eﬁnir par r´

ecurrence sur les mots : on doit

comprendre une telle d´

eﬁnition comme le sch´

ema d’une proc´

edure r´

ecursive. En fait, la plupart

des d´

eﬁnitions relatives aux mots seront bas´

eessurceprincipeder

´

ecurrence, ou l’une de ses variantes

(cf. ci–dessous).

Exemple.

La longueur

d’un mot peut se red´

eﬁnir utilement par r´

ecurrence de la fac¸on suivante :

|ε|=0

|ux|=|u|+1pour tout u∈A

∗et tout x∈A.

L’ ´

enonc´

eP[u]qui est en cause ici est “|u|est d´

eﬁnie”.

Les langages. M.M Institut Galil´ee 2004

4Chapitre 1

R´

ecurrence et induction sur les mots.

Le principe de r´

ecurrence qui vient d’ˆ

etre ´

enonc´

en’est´

evidemment pas le seul que l’on puisse utiliser

pour raisonner sur les mots. Voici, en bref, ce dont on peut disposer, en utilisant le fait que la longueur

d’un mot est un entier naturel :

– construction des mots et r´

ecurrence par adjonction d’occurrences `

agauche,

–plusg

´

en´

eralement, on peut faire des raisonnements par induction sur la longueur des mots,

– enﬁn, il peut ˆ

etre utile d’utiliser le fait qu’un ensemble non vide d’entiers contient un plus petit

´

el´

ement : un ensemble non vide de mots contient donc (au moins) un mot dont la longueur est la

plus petite possible!

Note sur les symboles.

ans ce qui pr´

ec`

ede, nous avons suppos´

e implicitement que les symboles (par exemple aet b)´

etaient

des objets ins´

ecables et que l’on pouvait placer “cˆ

ote `

ac

ˆ

ote” sans qu’ils risquent de se m´

elanger :

ceci est n´

ecessaire en particulier lorsque l’on a besoin de connaˆ

ıtre le symbole qui a ´

et´

e adjoint le dernier

dans la construction d’un mot.

Dans la pratique, on utilise souvent des symboles qui se pr´

esentent d´

ej`

asouslaformede“cha

ˆ

ınes de

caract`

eres” : pour pouvoir les reconnaˆ

ıtre, il faut alors user d’artiﬁces : ces artiﬁces sont les

s´

eparateurs

(parenth`

eses, caract`

ere blanc,...).

Exemple.

Si l’on veut absolument utiliser l’ensemble {aba, ab, bb, b}comme un alphabet, on ne peut pas se con-

tenter de juxtaposer des occurrences de ses ´

el´

ements pour en faire des mots car, par exemple le “mot”

ababb peut se lire de trois fac¸ons diff´

erentes! On peut r´

esoudre ce probl`

eme en intercallant des blancs

(par exemple aba bb), ou bien, et c’est la solution que nous adopterons le plus souvent, en consid´

erant

l’alphabet {[aba],[ab],[bb],[b]}o`

u chacun des symboles est soigneusement encapsul´

e : ainsi, les trois lec-

tures pr´

ec´

edentes correspondent–elles `

a trois mots bien identiﬁables : [aba][bb],[aba][b][b]et [ab][ab][b].

1.3 – La concat´

enation.

La concat´

enation

est l’op´

eration .:A∗×A

∗→A

∗qui consiste `

a mettre deux mots “bout `

about”:on

peut ´

evidemment la d´

eﬁnir en utilisant la pr´

esentation initiale des mots mais il est plus judicieux de faire

cette d´

eﬁnition par r´

ecurrence.

La concat´

enation

Pour tout u∈A

∗et tout v∈A

∗u.vest d´

eﬁnie par r´

ecurrence sur vde la fac¸on suivante :

1) u.ε=u,(abr

´

eg´

eenI(u)ci–dessous)

2) u.(vx)=(u.v)xpour tout v∈A

∗et tout x∈A.(abr

´

eg´

eenS(u, v, x)ci–dessous)

L’ ´

enonc´

eP[v]qui est en cause ici est “pour tout u∈A

∗,u.vest d´

eﬁni”.

Cette op´

eration est simple mais essentielle : elle ne nous quittera plus!

La r´

ecurrence d´

eﬁnissant la concat´

enation correspond `

auneproc

´

edure r´

ecursive. Par exemple :

ab .abba =(ab .abb)aS(ab, abb, a)

=((ab .ab)b)aS(ab, ab, b)

= (((ab .a)b)b)aS(ab,a,b)

= ((((ab .ε)a)b)b)aS(ab,ε,a)

= ((((ab)a)b)b)aI(ab)

Les quatre premi`

eres ´

egalit´

es ne font que des appels r´

ecursifs. Dans la derni`

ere expression, la seule

op´

eration qui intervient est l’adjonction d’occurrences `

a droite; il ne reste plus qu’`

a effectuer ces adjon-

tions pour obtenir le r´

esultat attendu : ababba.

M.M Institut Galil´ee 2004 Les langages.

Section 2 5

On ´

eviterait les appels r´

ecursifs en remplac¸ant 2) par u.(xv)=(ux).v:ceciest´

evidemment correct mais

suppose que certains mots soient construits par adjonction `

a droite et d’autres par adjonction `

agauche!

Propri´

et´

es de la concat´

enation

Quels que soient u∈A

∗,v∈A

∗et w∈A

∗:

a) Neutralit´

e:ε.u=uet u.ε=u.

b) Associativit´

e:(u.v).w=u.(v.w).

D´

emontrons ces deux propri´

et´

es, ceci `

aseuleﬁnderevoirpr

´

ecis´

ement comment “fonctionne” le raison-

nement par r´

ecurrence.

•D´

emontrons ε.u=upar r´

ecurrence sur u:

–ε.ε=ε,I(ε)

– supposons que ε.u=ualors, pour tout x∈A:(l’hypoth

`

ese de r´

ecurrence (HR))

ε.ux =(ε.u)xS(ε, u, x)

=ux,(HR)

la propri´

et´

e est donc vraie aussi pour ux.

•D´

emontrons b) par r´

ecurrence sur w:

–(u.v).ε=u.v=u.(v.ε),I(u.v)et I(v)

– supposons que (u.v).w=u.(v.w)alors, pour tout x∈A:(HR)

(u.v).(wx)=((u.v).w)xS(u.v, w, x)

=(u.(v.w))x(HR)

=u.((v.w)x)S(u, v .w, x)

=u.(v.(wx)),S(v, w, x)

la propri´

et´

e est donc vraie aussi pour wx.

Notation simpliﬁ´

ee de la concat´

enation.

Nous ´

ecrirons tr`

es souvent uv au lieu de u.v.Dem

ˆ

eme, l’associativit´

edelaconcat´

enation permet de faire

abstraction des parenth`

eses et d’´

ecrire uvw au lieu de (u.v).wou u.(v.w). Nous ferons de mˆ

eme par la

suite pour toutes les op´

erations associatives (apr`

es avoir v´

eriﬁ´

e qu’elles le sont!).

2 – Les langages et les op´erations ´el´ementaires sur les langages.

•

Un langage

Lsur un alphabet Aest une partie de A∗:L⊆A

∗.

•L’ensemble des langages sur Aest d´

esign´

eparP(A∗).

Exemples.

•∅⊆A

∗,A⊆A

∗et A∗⊆A

∗sont des langages sur A.

•Pour tout u∈A

∗,{u}⊆A

∗est un langage sur A.

Il est int´

eressant d’identiﬁer un mot au langage `

aunseul´

el´

ement qu’il d´

eﬁnit. Cette identiﬁcation se

traduit par une convention d’´

ecriture (abus de notation) que l’on peut symboliser par A∗⊆P(A∗).

Le regroupement de nos deux conventions d’´

ecriture donne le tableau :

A⊆A

∗⊆P(A∗)

C’est g´

en´

eralement la notation la plus simple qui sera utilis´

ee, par exemple :

–si

x∈A,xd´

esignera aussi le langage {x}dont le seul mot ne comporte que le seul caract`

ere x.

–εd´

esignera aussi le langage {ε}dont le seul mot est le mot sans caract`

ere.

Les langages. M.M Institut Galil´ee 2004

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

32

33

34

35

36

37

38

39

40

41

42

43

44

Les langages.

Documents connexes

Faire une suggestion

Produits

Assistance

Produits

Assistance

Les langages.

Documents connexes

Faire une suggestion

Produits

Assistance

Ajouter ce document à la (aux) collections

Ajouter ce document à enregistré

Suggérez-nous comment améliorer StudyLib