DU LINEAIRE AU CONVEXE

publicité
Chapter 1
DU LINEAIRE AU CONVEXE
1.1
Notations préliminaires
Espace vectoriel IRn : On travaillera avec des vecteurs à n composantes réelles notés:
x ∈ IRn
x1
 .. 
soit x =  .  avec xi ∈ IR, i = 1, . . . , n
xn


Deux types d’opérations sont effectuées dans un espace vectoriel:
• Addition : ∀x, y ∈ IRn , z = x + y ⇐⇒ zi = xi + yi , i = 1, . . . , n
• Multiplication par un scalaire : ∀x ∈ IRn , a ∈ IR, z = ax ⇐⇒ zi = axi , i = 1, . . . , n
Toute combinaison linéaire d’éléments de l’espace vectoriel est donc un élément de l’espace,
0 est l’élément neutre et −x est l’élément inverse de x (tel que x + (−x) = 0). Par ailleurs,
un vecteur de IRn sera dit linéairement dépendant d’un ensemble de vecteurs S ⊂ IRn
s’il peut s’écrire comme une combinaison linéaire des vecteurs de S. En conséquence, un
ensemble de vecteurs {s1 , . . . , sk } sera dit linéairement indépendant s’il n’existe pas de
P
coefficients (a1 , . . . , ak ) non tous nuls tels que ki=1 ai si = 0.
On introduit un produit scalaire noté h·, ·i, application bilinéaire de IRn × IRn dans IR :
hx, yi =
n
X
xi y i
i=1
Deux vecteurs x et y de IRn sont orthogonaux si hx, yi = 0.
La norme associée est la norme euclidienne notée :
kxk = hx, xi1/2
On notera B = {x ∈ IRn |kxk ≤ 1} la boule unité pour la norme euclidienne.
La fermeture d’un ensemble C est définie par :
cl(C) =
\
{C + ǫB|ǫ > 0}
1
CHAPTER 1. DU LINEAIRE AU CONVEXE
2
et l’intérieur par :
int(C) = {x ∈ C|∃ǫ > 0, x + ǫB ⊂ C}
L’intérieur étant souvent vide, on lui préfère souvent l’intérieur relatif au sous-espace affine
engendré par C (voir ci-dessous), noté rint(C). On a alors rint(C) ⊂ C ⊂ cl(C).
Matrices : Mm,n (IR) est l’ensemble des matrices de m lignes et n colonnes à coefficients
réels (pour les matrices carrées, on notera simplement Mn (IR)). Un élément de Mm,n (IR)
représente donc une transformation linéaire de l’espace IRn dans l’espace IRm .
Soit A ∈ Mm,n (IR), aij est l’élément de la i-ème ligne et j-ème colonne et soit x ∈ IRn :
y = Ax ⇐⇒ y ∈ IR
m
et yi =
n
X
aij xj , i = 1, . . . , m
j=1
A la composition d’une transformation linéaire de IRn dans IRm avec une transformation
de IRm dans IRp , on associera le produit matriciel A = CB où B est une matrice (m × n),
C est une matrice (p × m); donc le produit est une matrice A de taille (p × n) dont chaque
élément est le produit scalaire d’une ligne de C avec une colonne de B.
On notera AT la matrice transposée de A, c.a.d. telle que :
∀x ∈ IRn , y ∈ IRm , hy, Axi = hAT y, xi
On observe que la même notation est utilisée pour le produit scalaire dans IRm et dans
IRn .
On a : (AT )ij = aji et (AT )T = A
Rang d’une matrice : le rang d’une matrice est égal au nombre maximum de vecteurs
colonnes linéairement indépendants. C’est aussi le nombre maximum de vecteurs lignes
linéairement indépendants. Donc rang(A) ≤ min{m, n}.
Matrices carrées : ce sont les matrices telles que m = n. Une matrice carrée telle que
rang(A) = m est dite non singulière . Elle possède une inverse , notée A−1 , qui satisfait :
AA−1 = A−1 A = I , où I est la matrice identité , telle que aii = 1 et aij = 0 ,si i 6= j. On
a : (A−1 )−1 = A.
Une matrice (carrée) symétrique est telle que A = AT . Sn (IR) représente le sousensemble des matrices carrées symétriques de dimension n.
Les matrices telles que HH T = H T H = I sont dites orthogonales (leurs lignes et leurs
colonnes sont orthonormées). Elles satisfont kHxk = kxk, ∀x
Si S ∈ Sn (IR), toutes les valeurs propres λi de S sont réelles et il existe une matrice orthogonale U telle que U T SU = diag{λ1 , . . . , λn }. Les colonnes de U sont donc les vecteurs
P
(propres) orthonormés qui permettent la décomposition spectrale S = ni=1 λi ui uTi .
Les matrices symétriques définies positives sont celles dont toutes les valeurs propres
sont strictement positives (on dira matrice semi-définie positive s’il existe des valeurs propres nulles). Si A ∈ Sn (IR) est définie positive, on a ∀x ∈ IRn , x 6= 0, hx, Axi > 0.
1.2
Sous-espaces vectoriels et affines
Dans la continuité de l’introduction, un sous-espace vectoriel est un sous-ensemble de IRn
fermé pour les opérations d’addition et de multiplication par un scalaire. Il contient donc
l’origine et on a les propriétés immédiates :
Propriétés des sous-espaces : Soient L et M deux sous-espaces vectoriels; alors :
1.2. SOUS-ESPACES VECTORIELS ET AFFINES
3
i) L ∩ M est un sous-espace
ii) L + M est un sous-espace
Définition 1.1 On appelle sous-espace engendré par un ensemble S ⊂ IRn , l’ensemble,
noté lin{S}, des x qui s’écrivent comme une combinaison linéaire des vecteurs de S :
lin{S} = {x ∈ IRn |x = α1 a1 + · · · + αn ak , ai ∈ S, λi ∈ IR, i = 1, . . . , k}
Exercice : Montrer que L + M = lin{L ∪ M }
De même que l’espace IRn peut être engendré par les n vecteurs l.i. de la base canonique,
un sous-espace peut toujours être représenté à l’aide d’un ensemble générateur fini. Soit
S un ensemble fini de vecteurs l.i. tel que L = lin{S}; on dira que S est une base de L.
Le résultat fondamental sur les sous-espaces est que chaque base qui engendre le même
sous-espace a la même cardinalité.
Théorème 1.1 Tout système de vecteurs linéairement indépendants qui engendre un sousespace vectoriel a la même cardinalité.
Démonstration Considérons deux bases {a1 , . . . , ak } et {b1 , . . . , bl } du sous-espace L et
supposons l > k. On écrit alors b1 sur la première base, soit b1 = α1 a1 + · · · + αk ak et
supposons que α1 6= 0 (car tous les αi ne peuvent être tous nuls). On remplace alors a1
dans la base par α11 (b1 − α2 a2 − · · · − αk ak ). Par induction,
2
La cardinalité d’une base est appelée la dimension du sous-espace. La dimension permet
de classer les différents objets linéaires de IRn . En particulier, la dimension de IRn est
n. Donc, tout sous-espace L de IRn a une dimension dimL satisfaisant : dimL ∈ IN et
0 ≤ dimL ≤ n.
Supposons une base de vecteurs {a1 , . . . , ak } qui engendrent lin{S}, sous-espace de
dimension k. Si A est la matrice (n × k) dont les colonnes sont les vecteurs a1 , ..., ak et α
est le vecteur de IRk dont les composantes sont les αi , on peut représenter le sous-espace
engendré par S par :
lin{S} = {x ∈ IRn |x = Aα, ∀α ∈ IRk }
(on dit aussi que lin{S} est le sous-espace image de A, noté Im(A) ou A(IRn ))
Sous-espace orthogonal à un ensemble S : c’est l’ensemble des vecteurs orthogonaux
à tous les vecteurs de S , noté :
S ⊥ = {x ∈ IRn | hx, yi = 0, ∀y ∈ S}
Il est facile de montrer que S ⊥ est un sous-espace. Si B est la matrice (l × n) dont les
lignes sont les générateurs de lin{S}, alors on peut représenter S ⊥ par :
S ⊥ = {x ∈ IRn | Bx = 0}
(on dit aussi le noyau de B, noté Ker(B))
Propriétés :
CHAPTER 1. DU LINEAIRE AU CONVEXE
4
1. (S ⊥ )⊥ = lin{S}
2. S ⊂ T =⇒ S ⊥ ⊃ T ⊥
3. (S ∪ T )⊥ = S ⊥ ∩ T ⊥
4. {0}⊥ = IRn
5. L’image de A est orthogonale au noyau de AT
6. lin{S} ⊕ S ⊥ = IRn
La somme directe ⊕ signifie que, pour tout z de IRn , la décomposition z = x + y avec
x ∈ lin{S} et y ∈ S ⊥ est unique.
Représentation des sous-espaces
Tout sous-espace de IRn peut être représenté de deux manières différentes:
• comme ensemble des combinaisons linéaires d’un nombre fini de générateurs (c’est
alors le sous-espace Image de la matrice dont les colonnes sont ses générateurs);
• comme ensemble des solutions d’un système d’équations linéaires homogènes (c’est
alors le sous-espace Noyau de la matrice associée aux lignes du système d’équations).
Exemple :




1
0




Dans IR3 , soit le sous-espace L engendré par a1 =  −1  et a2 =  1 
0
−1


1
0


1  et dimL = rang(A) = 2
Donc L = Im(A) avec A =  −1
0
−1
On
L par L = {x ∈ IR3 | x1 + x2 + x3 = 0}, soit L = Ker(B) avec
h peut représenter
i
B = 1 1 1 et dimL = n − rang(B) = 2
Variétés linéaires :
Soit L un sous-espace de dimension m et x0 ∈ IRn . L’ensemble des vecteurs x de IRn
tels que x = x0 + z, z ∈ L est une variété linéaire (ou sous-espace affine). Toute variété
linéaire qui passe par l’origine est un sous-espace vectoriel. La deuxième représentation
d’une variété linéaire est l’ensemble des solutions d’un système d’équations linéaires :
Soit L = {x ∈ IRn | Bx = 0}, et soit x0 tel que Bx0 = b, alors l’ensemble V =
{x0 } + L = {x ∈ IRn | Bx = b} est une variété linéaire parallèle au sous-espace L. Comme
la dimension de ce sous-espace est égale à n − rang(B) = m, on dira que la variété a
pour dimension m (par analogie sur le nombre de degrés de liberté de sa représentation
paramétrique).
Définition 1.2 : On appelle sous-espace affine engendré par S, l’ensemble aff{S} des
combinaisons linéaires, de somme égale à 1, d’éléments de S.
aff{S} = {x ∈ IRn | x = α1 a1 + ... + αk ak ,
X
i
αi = 1; ai ∈ S, i = 1, ...k}
1.3. CÔNES POLYÈDRIQUES
5
On vérifie immédiatement que aff{S} est une variété linéaire en écrivant aff{S} =
+ {x ∈ IRn | x = α2 a′2 + . . . + αk a′k ; a′i = ai − a1 }.
Obs. : D’une manière générale, on dira que la dimension d’un ensemble S est d si
dim(aff{S}) = d.
Une variété linéaire de dimension n − 1 est un hyperplan. Donc, un hyperplan peut
être représenté au moyen d’une seule équation linéaire :
{a1 }
H = {x ∈ IRn | ha, xi = b}
1.3
Cônes polyèdriques
Définition 1.3 Un ensemble C de IRn est un cône ssi :
∀x ∈ C et ∀λ ≥ 0,
λx ∈ C
Cette définition implique donc qu’un cône contient l’origine. Elle inclut également des
cônes non convexes mais on ne s’intéressera ici qu’aux cônes convexes (voir définition de
la convexité à la section suivante).
Définition 1.4 Le cône convexe engendré par l’ensemble S, noté cone{S}, est l’ensemble
de toutes les combinaisons linéaires non négatives d’éléments de S.
cone{S} = {x ∈ IRn |x = α1 a1 + . . . + αk ak , αi ≥ 0; ai ∈ S, i = 1, . . . , k}
On vérifie aisément que cone{S} est un cône convexe. C’est le plus petit cône convexe qui
contient S.
Observations :
1. Contrairement aux sous-espaces, les cônes convexes n’ont pas toujours une représentation finie. Ceux qui en possèdent une sont appelés cônes polyédriques.
2. En toute généralité, un cône convexe peut contenir un sous-espace (non trivial).
Le plus grand sous-espace contenu dans un cône C est clairement défini par L =
T
C (−C). On appelle cône pointé un cône qui ne contient que le sous-espace trivial
T
{0}. En d’autres termes, un cône pointé est un cône C tel que C (−C) = {0}.
Comme précédemment, on peut se poser la question d’une représentation minimale
(ou essentielle) d’un cône polyèdrique. La réponse est moins simple que dans le cas du
sous-espace. On doit introduire la notion de rayon extrème du cône :
Définition 1.5 Soit C un cône convexe de IRn ; r ∈ C est un rayon extrème de C ssi on
ne peut trouver r ′ ∈ C et r ′′ ∈ C tels que r ′ , r ′′ ∈
/ cone{r} et r = r ′ + r ′′ .
On associera souvent un rayon extrème r avec la demi-droite cone{r} engendrée par r,
appelée direction extrème.
Ainsi, on peut considérer le problème de la génération d’un cône par ses rayons extrèmes :
Proposition 1.1 : Soit C un cône polyèdrique pointé et soit S l’ensemble de ses rayons
extrèmes. Alors il existe un sous-ensemble fini S̄ de S tel que C = cone{S̄}. De plus, cette
représentation est de cardinalité minimale.
CHAPTER 1. DU LINEAIRE AU CONVEXE
6
a2
C
a1
Figure 1.1: Cône de IR2
Démonstration Par induction, cf. Rockafellar,[4] p. 166. 2
Pour introduire la seconde représentation d’un cône polyèdrique, on définit le cône
polaire :
Définition 1.6 On appelle cône polaire d’un ensemble S l’ensemble S p défini par :
S p = {x ∈ IRn | hx, yi ≤ 0, ∀y ∈ S}
Il est clair que S p est un cône convexe. Si C est le cône polyèdrique engendré par les
vecteurs a1 , . . . , ak , alors :
C p = {a1 , . . . , ak }p = {x ∈ IRn | hx, ai i ≤ 0, i = 1, . . . , k}
Proposition 1.2 : Si S est un cône polyèdrique, S p est aussi un cône polyèdrique.
Démonstration Ce résultat fondamental a été découvert par Minkovski en 1910 [3], et
démontré formellement par Weyl (1935, [6]) qui démontra également sa forme duale :
tout cône polyèdrique peut être représenté comme l’ensemble des solutions d’un système
d’inégalités linéaires homogènes. Une démonstration constructive peut être lue dans Stoer
et Witzgall ([5],1970). 2
En résumé, tout cône polyèdrique peut être représenté de deux manières :
• comme ensemble des combinaisons linéaires non négatives d’un nombre fini de générateurs (les rayons extrèmes du cône).
• comme ensemble des solutions d’un système d’inégalités linéaires homogènes.
Exemple : Figure 1.1
2
C = {x ∈ IR | x = α1
a1
+
α2 a2 , α1
≥ 0, α2 ≥ 0} où
C = {x ∈ IR2 | − x1 + x2 ≤ 0, −x2 ≤ 0}
a1
=
"
1
0
#
et
a2
=
"
1
1
#
1.4. ENSEMBLES CONVEXES ET POLYÈDRES
1.4
7
Ensembles convexes et polyèdres
Définition 1.7 Un ensemble K de IRn est convexe si et seulement si :
∀x1 , x2 ∈ K et ∀λ ∈ (0, 1), x = λx1 + (1 − λ)x2 ∈ K
On montre facilement que les objets linéaires décrits précédemment, sous-espaces, vectoriels et affines, et cônes polyèdriques, sont des ensembles convexes.
Propriétés des ensembles convexes :
On admettra que l’ensemble vide est convexe. Si C est convexe, alors il en est de
même pour int(C), rint(C) ainsi que pour cl(C). Par ailleurs, on tire immédiatement de
la définition les propriétés suivantes :
Soient K1 et K2 deux convexes de IRn ;
1. K1
T
K2 est convexe
2. aK1 + bK2 est convexe pour tous réels a et b
Exercices : Démontrer les résultats suivants :
1. les parties convexes de IR sont les intervalles;
2. l’image par une transformation affine d’un convexe est un convexe;
3. Pour tout convexe C , ∀λ, µ ≥ 0, λC + µC = (λ + µ)C
Le théorème suivant établit l’équivalence de la définition d’un convexe avec sa génération par des combinaisons convexes, c’est-à-dire, des combinaisons linéaires à coefficients
positifs de somme égale à 1.
Théorème 1.2 Un ensemble C est convexe si et seulement si il contient toutes les combinaisons convexes de ses éléments.
Démonstration Il est clair que si C contient toutes les combinaisons convexes de ses
éléments, il contient toutes les combinaisons convexes de deux éléments. Donc, C satisfait
la définition ci-dessus et est un ensemble convexe.
P
P
Si C est convexe, soit z = ki=1 λi xi , avec ki=1 λi = 1, λi ≥ 0, i = 1, . . . , k et xi ∈
C, i = 1, . . . , k. Montrons que z est dans C par la construction suivante, en supposant sans
perte de généralité que λ1 > 0 :
λ2
λ1
x1 +
x2 ∈ C
λ1 + λ2
λ1 + λ2
λ1 + λ2
λ3
y2 =
y1 +
x3 ∈ C
λ1 + λ2 + λ3
λ1 + λ2 + λ3
···
···
λ1 + · · · + λn−1 n−2 λn n
y
+
x ∈C
y n−1 =
1
1
y1 =
On peut alors vérifier que y n−1 = z, donc z ∈ C. 2
Cette caractérisation peut être simplifiée dans le cas d’un cône : un cône est convexe ssi,
pour tout x et y ∈ C, x + y ∈ C (Preuve : Exercice).
CHAPTER 1. DU LINEAIRE AU CONVEXE
8
Définition 1.8 L’enveloppe convexe d’un ensemble S, notée conv(S), est l’ensemble de
toutes les combinaisons convexes des éléments de S, c.a.d. :
conv{S} = {x ∈ IRn | x = α1 a1 + . . . + αk ak ,
X
αi = 1, αi ≥ 0, ai ∈ S, i = 1, . . . , k}
i
On vérifie que conv{S} est bien un ensemble convexe; conv{S} est le plus petit ensemble
convexe qui contient S.
Observation : l’enveloppe convexe d’un ensemble fermé n’étant pas nécessairement fermée
S
(prendre par exemple dans IR2 l’ensemble S = {x ∈ IR2 | x1 x2 ≥ 1, x1 ≥ 0} {x ∈
IR2 | x1 x2 ≤ −1, x1 ≤ 0}, Figure (1.2)), on utilisera fréquemment la fermeture de cette
enveloppe, notée cl(conv{S}.
C2
C1
C = conv{C1 ∪ C2 }
Figure 1.2: L’enveloppe convexe de l’union n’est pas fermée
Comme précédemment, on s’intéresse au cas où l’ensemble générateur est fini. On
obtient alors un polytope.
Définition 1.9 On appelle polyèdre un ensemble P qui peut s’écrire comme la somme
d’un sous-espace L, d’un cône polyèdrique C et d’un polytope K. Il correspond donc au cas
le plus général et ses générateurs peuvent être de 3 types.
P = {x ∈ IRn | x = α1 a1 + . . . + αk ak + αk+1 ak+1 + . . . + αl al + αl+1 al+1 + . . . + αm am ,
αi ∈ IR, i = 1, . . . , m, αi ≥ 0, i = k + 1, . . . , m,
m
X
αi = 1}
i=l+1
Un polyèdre borné est donc un polytope (k = l = 0).
Définition 1.10 On appelle point extrème d’un ensemble convexe K de IRn tout vecteur
x ∈ K tel qu’il n’existe pas x′ , x′′ ∈ K avec x′ 6= x, x′′ 6= x et x ∈ conv{x′ , x′′ }.
Exemple :
n = 3,k =1, l = 2,m =4




0
0
1
0








a1 =  1  a2 =  1  a3 =  1  a4 =  0 
0
0
0
1
1.4. ENSEMBLES CONVEXES ET POLYÈDRES
9
a1
a3
a4
a2
Figure 1.3: Génération d’un polyèdre de IR3
P = lin{a1 } + cone{a2 } + conv{a3 , a4 } = {x ∈ IR3 |x1 ≥ 0, 0 ≤ x2 − x1 ≤ 1}
Le polyèdre est représenté sur la figure 1.3.
Grâce à la transformation Ω de IRn dans IRn+1 : x 7→ (x, 1), tout polyèdre P de IRn
peut se transformer en un cône polyèdrique de IRn+1 :
Ω(P ) = cone{(x, 1)|x ∈ P }
et on peut étendre les résultats du paragraphe précédent aux polyèdres. Ainsi, tout polyèdre peut s’écrire comme l’ensemble des solutions d’un système d’égalités et d’inégalités
linéaires. Dans sa représentation minimale, les égalités représentent le sous-espace affine
engendré par P et chaque inégalité est un demi-espace qui contient P . L’intersection de
l’hyperplan frontière du demi-espace avec P est une face de P .
CHAPTER 1. DU LINEAIRE AU CONVEXE
10
1.5
Projection et séparation avec des ensembles convexes
Les objets linéaires étudiés dans les paragraphes précédents, sous-espaces, sous-espaces
affines, cônes polyèdriques et polyèdres sont des ensembles convexes dont les représentations
sont finies. On peut considérer les ensembles convexes comme une généralisation naturelle
au cas d’un nombre infini de générateurs. Cette situation particulière qui place le convexe
à la frontière du linéaire et la relation intime entre les deux représentations qu’on appelle
dualité sont basées sur deux concepts fondamentaux : la projection et la séparation.
Définition 1.11 Soit C un ensemble de IRn et u un élément quelconque de IRn . On
appelle meilleure approximation de u sur C le point p de C tel que :
ku − pk = min ku − xk
x∈C
La définition de la meilleure approximation fait donc appel à un problème d’optimisation
sous contraintes. On verra plus tard que la fonction norme k · k est une fonction convexe.
Or, dans le cas où C est un ensemble convexe fermé, on a le résultat suivant :
Théorème 1.3 (de projection) Soit C un ensemble convexe fermé non vide de IRn .
Tout élément u de IRn possède une unique meilleure approximation p sur C appelée projection de u sur C. De plus, p est caractérisé par:
hp − u, p − xi ≤ 0, ∀x ∈ C
Démonstration Supposons que u ∈
/ C (le résultat est trivial avec u = p si u ∈ C). Soit
δ = inf x∈C kx − uk > 0. L’existence d’une meilleure approximation (en abrégé m.a.) sur
C est garantie par l’existence d’une boule compacte centrée en u et d’intersection non vide
avec C (on peut prendre la boule de rayon 2δ). La norme étant continue, elle atteint donc
sa borne inférieure sur cette intersection (théorème de Weierstrass).
Démontrons alors l’inégalité caractérisant une meilleure approximation pour en déduire
l’unicité.
i) Soit y ∈ C et λ ∈ (0, 1); si p est la m.a. de u sur C, p ∈ C =⇒ (1 − λ)p + λy ∈ C,
d’où :
ku − pk2 ≤ ku − (1 − λ)p − λyk2
≤ k(u − p) + λ(p − y)k2
≤ ku − pk2 + λ2 kp − yk2 + 2λhu − p, p − yi
=⇒ −λkp − yk2 + 2hp − u, p − yi ≤ 0 On peut alors faire tendre λ vers 0 pour obtenir
l’inégalité recherchée par passage à la limite.
ii)
hp − u, p − xi = hp − u, p − u + u − xi
= kp − uk2 − hu − p, u − xi ≤ 0
Donc kp − uk2 ≤ hu − p, u − xi ≤ kp − ukku − xk qui est vrai pour tout x ∈ C; comme
kp − uk =
6 0, on peut simplifier et on a bien montré que p est la m.a. de u sur C.
1.5. PROJECTION ET SÉPARATION AVEC DES ENSEMBLES CONVEXES
11
Pour l’unicité de p, on introduit p′ 6= p, m.a. de u sur C et on applique l’inégalité de
caractérisation dans les deux sens pour obtenir une contradiction. 2
Ce résultat peut être démontré dans des espaces plus généraux que IRn qui sont les
espaces de Hilbert, c.a.d. les espaces vectoriels normés complets. La démonstration du
théorème peut être trouvée dans Luenberger[2].
Une conséquence immédiate de cette représentation est le fait que l’opérateur de projection,
noté ProjC , qui,à u ∈ IRn associe sa projection sur C, p = ProjC (u) est monotone et non
expansif, c’est-à-dire, qu’il contracte les distances euclidiennes :
Théorème 1.4 Soit C un ensemble convexe fermé non vide de IRn . Alors, pour tout
u, u′ ∈ IRn , on a :
hProjC (u) − ProjC (u′ ), u − u′ i ≥ 0
′
(1.1)
′
kProjC (u) − ProjC (u )k ≤ ku − u k
Démonstration
(1.2)
On applique la caractérisation du théorème de projection deux fois :
hProjC (u′ ) − ProjC (u), u − ProjC (u)i ≤ 0
dans un sens, puis, en inversant le rôle de u et u′ :
hProjC (u) − ProjC (u′ ), u′ − ProjC (u′ )i ≤ 0
et on additionne les deux expressions pour obtenir (1.1). On applique alors l’inégalité de
Schwartz pour obtenir (1.2). 2
Revenons à la preuve du théorème de projection et observons que, si u ∈
/ C, p − u 6= 0
et l’inégalité précédente peut s’écrire :
ha, xi ≤ b, ∀x ∈ C
avec a = u − p et b = ha, pi. De plus, il est clair que :
ha, ui = ha, u − p + pi = kak2 + ha, pi > b
Ces deux inégalités signifient que l’hyperplan H = {x ∈ IRn |ha, xi = b} sépare strictement
u et C. On a donc prouvé le résultat fondamental suivant :
Théorème 1.5 Soit C un ensemble convexe fermé non vide de IRn et soit u ∈
/ C. Alors,
n
il existe un hyperplan séparant u de C, c’est-à-dire, il existe a ∈ IR et b ∈ IR tel que
ha, xi ≤ b, ∀x ∈ C et ha, ui > b.
La séparation implique que l’ensemble convexe est contenu dans un demi-espace associé à
l’hyperplan séparateur. On en déduit immédiatement la caractérisation suivante :
Corollaire 1.1 Soit C un ensemble convexe fermé de IRn . Alors C est l’intersection de
tous les demi-espaces qui le contiennent.
L’existence de ces hyperplans séparateurs caractérise la convexité et on a plus généralement :
CHAPTER 1. DU LINEAIRE AU CONVEXE
12
Théorème 1.6 (de séparation) Soient deux ensembles convexes non vides C1 et C2 de
IRn ne possèdant pas de points intérieurs communs. Alors, il existe un hyperplan H séS
parant C1 et C2 tel que C1 C2 6⊂ H
Démonstration Fenchel[1] 2
Observations :
• On doit comprendre ici point intérieur relatif à la topologie induite par le sous-espace
affine engendré par l’ensemble.
• Le théorème de séparation a plusieurs formes utiles dans des espaces plus généraux.
Sa forme la plus célèbre est le théorème de Hahn-Banach (cf. Luenberger [2]).
• La représentation d’un ensemble convexe comme intersection des demi-espaces qui le
contiennent est une conséquence directe du théorème de séparation.
Si on exploite ce concept dans la recherche de la projection sur un convexe, on obtient une
première interprétation de la dualité en optimisation convexe. Définissons tout d’abord
une relaxation du problème de projection sur un convexe fermé :
Problème primal
Minimiser ku − xk
x∈C
Problème relaxé
Minimiser ku − xk
x ∈ H+
où H + est un demi-espace qui contient C limité par un hyperplan séparateur de u et C (dont
l’existence est garantie par le théorème de séparation). Soit pH la solution du problème
relaxé, i.e. la projection de u sur H. Comme toute solution réalisable du problème primal
est réalisable pour le problème relaxé, on a (inégalité de dualité faible) :
ku − pH k ≤ ku − xk, ∀x ∈ C
La valeur optimale du problème relaxé est donc une borne inférieure de la valeur optimale du problème primal. Par ailleurs, le problème relaxé est plus ’facile’ à résoudre car
l’ensemble des solutions réalisables est un objet linéaire simple. On appellera problème dual
celui qui consiste à rechercher la meilleure borne inférieure donc à rechercher l’hyperplan
séparateur H tel que ku − pH k est maximal :
Problème dual
Maximiser ku − pH k
pH est la projection de u
sur un hyperplan H séparant u de C
En effet, si H + est le demi-espace associé à l’hyperplan séparateur H et contenant C, le
problème de minimiser ku − xk sur H + est une relaxation du problème primal, ce qui
implique que sa valeur optimale ku − pH (u)k est une borne inférieure de la valeur optimale
ku − p∗ k. Le problème dual revient donc à chercher la plus grande borne inférieure qui
s’avère égale à la valeur optimale du primal.
On note le caractère implicite du problème dual qui sera étudié plus en détail sous sa
forme générale au chapitre 4. La figure (1.4) illustre la construction de H et permet de
visualiser le résultat dit de dualité forte pour la paire de problème primal et dual :
max ku − pH k = min ku − xk
H
x∈C
1.5. PROJECTION ET SÉPARATION AVEC DES ENSEMBLES CONVEXES
13
u
H
pH
p*
C
Figure 1.4: Projection, séparation et dualité
En effet, l’hyperplan H ∗ = {x | hu − p∗ , xi = hu, p∗ i − kp∗ k2 } qui définit la m.a. p∗ ∈ C de
u sur C satisfait bien l’égalité ci-dessus avec pH ∗ = p∗ .
Bibliographie du chap. 1
[1] W. Fenchel, Convex cones, sets and functions, mimeographed lecture notes, Princeton U., 1951.
[2] D.G. Luenberger, Optimization by vector space methods, John Wiley, 1969.
[3] H. Minkovski, Theorie der konvexen Körper, insbesondere Begründung ihres Oberflächenbegriffs, Gesammelte Abhandlungen, Leipzig, 1911.
[4] R.T. Rockafellar, Convex Analysis, Princeton U. Press, 1970.
[5] J. Stoer et C. Witzgall, Convexity and Optimization, Springer V., 1970.
[6] H. Weyl, Elementare Theorie der konvexen Polyeder, Commentarii Helvetici, 1935.
Téléchargement