Un Algorithme pour le Probl`
eme des Bandits Manchots avec
Stationnarit´
e par Parties
Robin Allesiardo1,2 et Rapha¨
el F´
eraud1
1Orange Labs, 2 av. Pierre Marzin, 22300 Lannion
2TAO - INRIA, LRI, Universit´
e Paris-Sud, CNRS, 91405 Orsay
R´
esum´
e
Dans le probl`
eme des bandits manchots, un joueur
poss`
ede le choix entre plusieurs bras poss´
edant des
esp´
erances de gain diff´
erentes. Son but est de maximiser
la r´
ecompense obtenue apr`
es Tessais. Il doit alors explo-
rer pour estimer les r´
ecompenses de chaque machine tout
en exploitant le bras qu’il estime le meilleur. C’est le di-
lemme exploration/exploitation. Dans le cas des bandits ad-
verses, la s´
equence de r´
ecompenses d’une machine est choi-
sie `
a l’avance par un adversaire. En pratique, la notion de
meilleur bras sur le jeu complet est trop restrictive pour
des applications comme l’optimisation publicitaire o`
u la
meilleure publicit´
e peut changer au cours du temps. Dans
ce papier, nous consid´
erons une variante du probl`
eme ad-
verse, o`
u le jeu est divis´
e en un nombre inconnu de p´
eriodes
`
a l’int´
erieur desquelles les r´
ecompenses sont tir´
ees dans
des distributions stochastiques. Entre chaque p´
eriode, le
meilleur bras peut changer. Nous pr´
esentons un algorithme
utilisant l’exploration constante d’EXP3 pour d´
etecter les
changements de meilleur bras. Son analyse montre, que sur
un jeu divis´
e en Nsegments o`
u le meilleur bras change,
l’algorithme propos´
e poss`
ede un regret en O(NTlog T).
1 Introduction
Le probl`
eme des bandits manchots est un jeu r´
ep´
etitif o`
u,
`
a chaque tour, un joueur choisit l’un des Kbras (ou ac-
tions) puis rec¸oit la r´
ecompense associ´
ee `
a l’action choisie.
Pour trouver l’action la plus profitable, le joueur doit ex-
plorer les diff´
erents choix possibles mais doit aussi exploi-
ter l’action qu’il estime la meilleure de mani`
ere `
a maximi-
ser sa r´
ecompense cumul´
ee. La qualit´
e de la strat´
egie du
joueur est mesur´
ee en terme de regret, qui est la diff´
erence
entre la r´
ecompense cumul´
ee du joueur et celle qu’aurait
obtenue une strat´
egie suppos´
ee optimale comme jouer
uniquement le bras poss´
edant la plus haute esp´
erance de
r´
ecompense .
Dans le cas stochastique, les r´
ecompenses de chaque
bras sont tir´
ees de mani`
ere ind´
ependante dans une distri-
bution associ´
ee `
a chaque bras. Le plus ancien algorithme,
le Thompson Sampling [Tho33], est bas´
e sur des id´
ees
Bay´
esiennes. `
A chaque pas de temps, une action est choi-
sie en ´
echantillonnant les r´
ecompenses a posteriori estim´
ees
pour chaque bras. Cette politique atteint, en esp´
erance, un
regret cumul´
e logarithmique [AG12] et est optimal asymp-
totiquement [KKM12]. L’algorithme UCB [ACBF02] cal-
cule un intervalle de confiance sup´
erieur pour chaque bras
et joue le bras poss´
edant la plus haute estimation. L’analyse
de cet algorithme montre que son regret cumul´
e poss`
ede
une borne sup´
erieure logarithmique, ce qui est optimal.
Dans le cas adverse, les r´
ecompenses sont choisies `
a
l’avance par un adversaire. Cette formulation a ´
et´
e lon-
guement ´
etudi´
ee par Auer et al [ACBFS02] ainsi que
par Cesa-Bianchi et Lugosi [CBL06]. Les algorithmes ad-
verses les plus populaires proviennent de la famille EXP3
[ACBFS02]. EXP3 atteint un regret cumul´
e en O(T), ce
qui est optimal dans le cas adverse. Le probl`
eme des ban-
dits manchots avec stationnarit´
e par parties consid`
ere que
des points de rupture sont choisis en avance par un ad-
versaire [GM11]. Entre ces points, les r´
ecompenses sont
tir´
ees depuis des distributions stochastiques. Cet ´
enonc´
e est
appropri´
e pour des applications comme l’optimisation pu-
blicitaire, o`
u les publicit´
es disponibles peuvent changer au
cours du temps.
R´
esum´
e de la contribution
Pour ˆ
etre capable d’appr´
ehender les changements
de meilleur bras, notre contribution combine l’algorithme
de bandit adverse EXP3 avec un d´
etecteur de rupture. Cet
algorithme, appel´
e EXP3.R, utilise l’exploration constante
d’ EXP3 pour maintenir des estimateurs non biais´
es
1
de la r´
ecompense moyenne de chaque bras. Quand un
changement de meilleur bras est d´
etect´
e, les poids d’EXP3
sont r´
einitialis´
es. L’analyse de notre algorithme montre que
son regret cumul´
e est born´
e par O(NTlog T).
2 Travaux pr´
ec´
edents
Le principal point faible d’EXP3 provient du fait qu’il
est construit pour trouver un unique meilleur bras sur le
jeu entier. Cette notion d’unique meilleur bras est trop res-
trictive pour des applications comme l’optimisation pu-
blicitaire. Pour s’affranchir de cette restriction, EXP3.S
[ACBFS02] utilise une m´
ethode de r´
egularisation sur les es-
timateurs des r´
ecompenses pour oublier le pass´
e et faciliter
les changements de bras. L’analyse d’EXP3.S le compare
`
a une politique optimale capable de jouer Nbras diff´
erents
au cours du jeu. Face `
a elle, le regret d’EXP3.S est born´
e
par O(NT log T). Dans DISCOUNTEDUCB [KS06], un
facteur de r´
eduction est utilis´
e sur les r´
ecompenses d’UCB
pour l’adapter `
a la non-stationnarit´
e. Une autre variante uti-
lise une fenˆ
etre sur les estimateurs d’ UCB. Ce deux adap-
tations ont ´
et´
e analys´
ees dans [GM11] et sont born´
ees par
O(MT log T), o`
uMest le nombre de changements de
moyenne. La borne inf´
erieure en Ω(T)pour les bandits
manchot avec stationnarit´
e par parties a ´
et´
e d´
emontr´
e dans
[GM11] et les pr´
ec´
edents algorithmes l’atteignent `
a un fac-
teur log Tpr`
es. Une autre approche propos´
ee pour les
jeux `
a gratter r´
einitialise EXP3 `
a chaque fois qu’un
bras apparait ou disparait [FU13]. Pour utiliser cette ap-
proche sur notre probl`
eme, il est n´
ecessaire de savoir quand
les changements se produisent.
La d´
etection du changement a ´
et´
e´
etudi´
ee [HPC12] pour
diff´
erentes applications comme la d´
etection du spam, de la
fraude, la m´
et´
eorologie ou bien la finance. Les concepts
surveill´
es d´
ependent de l’application. Par exemple, dans la
classification en ligne, les variations de performances du
mod`
ele sont souvent utilis´
ees pour d´
etecter les d´
erives de
concept : dans [GMCR04], les auteurs consid`
erent que l’er-
reur en classification est une variable al´
eatoire de Bernoulli
et dans [Las02], des exemples sont collect´
es `
a diff´
erents in-
tervalles de temps et utilis´
es comme ensemble d’appren-
tissage et de validation. Pour les probl`
emes de bandits
`
a information partielle, dans META-EVE [HBG+06], la
r´
ecompense moyenne de la meilleure action estim´
ee est sur-
veill´
ee. Une statistique de Page-Hinkley est utilis´
ee pour
tester si la s´
erie de r´
ecompense provient d’une unique loi
statistique. Le point faible de cette approche est de ne pas
g´
erer le cas o`
u une action sous-optimale devient optimale
sans que la r´
ecompense du meilleur bras ne change. Des
intervalles de confiance sont utilis´
es dans [YM09] pour
d´
etecter les changements de r´
ecompense moyenne. Cet al-
gorithme poss`
ede une borne en O(Nlog T)o`
uN1
est le nombre de changements durant le jeu. Pour arriver
`
a une telle borne, l’algorithme utilise des informations
cach´
ees acquises sans impact sur le regret. La divergence
de Kullback-Leiber peut aussi ˆ
etre utilis´
ee comme d´
etecteur
[YYC13, BLB10].
3 Politique optimale et Regret cu-
mul´
e
D´
efinition. De mani`
ere similaire `
a SW-UCB [GM11],
nous d´
efinition le probl`
eme des bandits manchots avec sta-
tionnarit´
e par partie par un ensemble de Kactions, o`
u
1kKest l’index de chaque action, et une s´
equence
de vecteurs r´
ecompense x(t)=(x1(t), ..., xk(t)) de taille
To`
uxk(t)∈ {0,1}. Chaque r´
ecompense xk(t)est tir´
ee
depuis une distribution de Bernoulli de moyenne µk(t). Les
M1pas de temps o`
uk, µ(t)k6=µk(t+ 1) sont appel´
es
points de rupture. Un adversaire choisit les pas de temps o`
u
les ruptures se produisent et tire ensuite les s´
equences de
r´
ecompenses. L’action jou´
ee au temps test not´
ek(t). Le
but d’un algorithme Aest de maximiser le gain cumul´
e`
a
l’horizon de temps Td´
efini par :
GA=
T
X
t=1
xk(t)(t).(1)
La politique optimale. La s´
equence de vecteurs
r´
ecompense est divis´
ee en NMs´
equences ap-
pel´
ees segments. Sest l’index du segment incluant
les tours [TS, TS+1[. Un segment Scommence quand
max
kµk(TS)6= max
kµk(TS1). Le bras optimal sur le
segment Sest not´
ek
Savec :
k
S= arg max
k
TS+11
X
t=TS
µk(t).(2)
Le gain de la politique optimale est not´
eGet d´
efini par :
G=
N
X
S=1
TS+11
X
t=TS
xk
S(t).(3)
Le regret de l’algorithme Aface `
a la politique optimale
est :
R(A) = GGA.(4)
2
Notez que
G
N
X
S=1
max
k
TS+11
X
t=TS
xk(t),(5)
c’est `
a dire qu’apr`
es le tirage par l’adversaire, la s´
equence
de r´
ecompenses d’un bras sous-optimal peut ˆ
etre sup´
erieure
`
a la s´
equence du bras avec la plus haute r´
ecompense
moyenne.
4 Algorithme
Tandis-que les autres algorithmes ont une approche pas-
sive consistant `
a oublier le pass´
e [ACBFS02, KS06,
GM11], nous proposons une strat´
egie active consistant `
a
r´
einitialiser les estimateurs de l’algorithme quand un chan-
gement de meilleure action est d´
etect´
e. Premi`
erement, nous
d´
ecrirons l’algorithme adverse EXP3 [ACBFS02] qui
sera utilis´
e par l’algorithme propos´
e EXP3.R entre chaque
d´
etection. Nous d´
ecrirons ensuite le d´
etecteur de d´
erive de
concept utilis´
e pour d´
etecter les changements de meilleur
bras. Pour finir, nous combinerons les deux pour obtenir
l’algorithme EXP3.R.
Algorithm 1 EXP3
Le param`
etre γ[0,1] contrˆ
ole l’exploration. La proba-
bilit´
e de choisir kau tour test :
pk(t) = (1 γ)wk(t)
Pk
i=1 wi(t)+γ
K.(6)
Les poids wk(t)de chaque action ksont :
wk(t) = exp
γ
K
t
X
j=tr
xk(j)
pk(j)Jk=k(j)K
,(7)
o`
utrest le pas de temps o`
u l’algorithme a ´
et´
e initialis´
e.
L’algorithme EXP3 (voir Algorithme 1) minimise le re-
gret face au meilleur bras en utilisant un estimateur non
biais´
e des r´
ecompenses cumul´
ees au temps tpour cal-
culer les probabilit´
es de choisir chaque action. Mˆ
eme si
cette strat´
egie peut ˆ
etre vu comme optimale dans un cas
adverse, dans beaucoup d’applications pratiques, la non-
stationnarit´
e`
a l’int´
erieur d’une p´
eriode de temps est faible
et est uniquement remarquable sur le long terme. Si un bras
est performant sur une p´
eriode de longue taille mais devient
tr`
es mauvais ensuite, l’algorithme EXP3 peut n´
ecessiter un
FIGURE 1 – Ce jeu comporte trois changements de
moyennes mais la politique optimale ne changerait de bras
qu’une seule fois. Ici, M= 3 et N= 2.
nombre d’it´
erations ´
egal `
a la taille de la premi`
ere p´
eriode
avant de changer de bras majoritairement jou´
e. Coupl´
e
avec un d´
etecteur de changement, l’algorithme EXP3 a
plusieurs avantages. Premi`
erement, dans un environnement
non-stationnaire, une exploration constante est n´
ecessaire
pour d´
etecter les changement. Cette exploration est donn´
ee
naturellement par l’algorithme. Deuxi`
emement, le nombre
de changements de moyennes est sup´
erieur au nombre de
changements de meilleurs bras (MN) (voir Figure 1).
Cela signifie que le nombre de r´
e-initialisations requises par
EXP3 est plus petit que celui n´
ecessaire `
a un algorithme
stochastique comme UCB. Troisi`
emement, EXP3 est ro-
buste face aux non d´
etections ou aux non-stationnarit´
es lo-
cales.
Le d´
etecteur de d´
erive (voir Algorithme 2) utilise des
intervalles de confiance pour estimer les esp´
erances de
r´
ecompenses sur la p´
eriode de temps pr´
ec´
edente. La dis-
tribution de probabilit´
e des actions dans EXP3 est une
mixture entre une distribution de Gibbs et une distribution
uniforme. Nous appelons γ-observation, une observation
s´
electionn´
ee via la distribution uniforme. Les param`
etres γ,
Het δd´
efinissent un nombre minimal de γ-observations
n´
ecessaires `
a l’utilisation d’un d´
etecteur d’une pr´
ecision
avec une probabilit´
e d’au moins 1δ. Ces param`
etres seront
fix´
es plus tard dans l’analyse (voir Corollaire 1) et la validit´
e
du test est prouv´
ee dans le Lemme 1. Nous notons ˆµk(I)la
moyenne empirique des r´
ecompense obtenues par le bras k
sur l’intervalle Ien utilisant uniquement les γ-observations
et Γmin(I) le plus petit nombre de γ-observations parmi tous
les bras sur l’intervalle I. Le d´
etecteur est appel´
e unique-
ment quand Γmin(I)γH
K. Celui-ci l`
eve une d´
etection
quand l’action kmax, qui est celle poss´
edant la plus haute
probabilit´
epk(t)(voir Algorithme 1), est ´
elimin´
ee par une
3
autre sur l’intervalle courant.
Algorithm 2 DetectionDeDerive(I)
Param`
etres : Intervalle courant I
kmax = arg max
k
pk(t)
=qKlog( 1
δ)
2γH
return qk, ˆµk(I)ˆµkmax (I)2y
L’algorithme EXP3.R est obtenu en combinant EXP3
et le d´
etecteur de d´
erive. Dans un premier temps une ins-
tance d’ EXP3 est initialis´
ee et utilis´
ee pour s´
electionner
les actions. Des γ-observation sont alors collect´
ee jusqu’`
a
ce que Γmin(I)γH
K. Lorsque ce compte est atteind, le
test de d´
etection est ex´
ecut´
e. Si, dans l’intervalle corres-
pondant, la moyenne empirique d’un bras est sup´
erieure
de 2`
a meilleure action actuelle alors une d´
etection est
lev´
ee. Dans ce cas, les poids de l’algorithme EXP3 sont
r´
einitialis´
es. Commence alors un nouvel intervalle de col-
lecte en pr´
eparation du prochain test. Ces ´
etapes sont
r´
ep´
et´
ees jusqu’`
a la fin du jeu (voir Algorithme 3).
Algorithm 3 EXP3 avec R´
e-initialisation
Param`
etres : R´
eels δ, γ et entier H
I= 1
for each t= 1, ..., T do
Appeler EXP3 sur le pas de temps t
if Γmin(I)γH
Kthen
if DetectionDeDerive(I)then
R´
einitialiser EXP3
end if
I=I+ 1
end if
end for
Avec une pr´
ecision , seules les diff´
erences sup´
erieures `
a
4sont d´
etect´
ees avec une haute probabilit´
e. De la mˆ
eme
mani`
ere que [YM09] nous utilisons l’hypoth`
ese 1 pour
s’assurer que tout les changements de meilleur bras sont
d´
etect´
es avec une haute probabilit´
e.
Hypoth`
ese 1. Durant chacune des Mp´
eriodes station-
naires, la diff´
erence entre la r´
ecompense moyenne du bras
optimal et celle de n’importe quel autre bras est au moins
de 4avec
=sKlog( 1
δ)
2γH .(8)
4.1 Analyse
Dans cette section nous analysons le d´
etecteur de rupture
et bornons l’esp´
erance du regret de l’algorithme EXP3.R.
Le lemme 1 garantit que quand l’hypoth`
ese 1 est valide
et que l’intervalle Iest inclus dans l’intervalle Salors, avec
une haute probabilit´
e, une d´
etection sera lev´
ee si et seule-
ment si le bras optimal k
S´
elimine un bras sous-optimal.
Lemme 1. Quand l’hypoth`
ese 1 est valide et que IS
alors, avec une probabilit´
e d’au moins 12δ, pour tout
k6=k
S:
ˆµk
S(I)ˆµk(I)2sKlog(1
δ)
2γH µk
S(I)µk(I).(9)
D´
emonstration. Nous justifions notre test de d´
etection en
consid´
erant les γ-observations comme des tirages sans rem-
placement dans une urne. Plus pr´
ecis´
ement, quand toutes
les observations n´
ecessaires sont collect´
ees, la proc´
edure
de d´
etection est lanc´
ee. Durant l’intervalle de collecte, les
r´
ecompenses sont tir´
ees depuis 1mMdiff´
erentes
distributions de moyenne µk
0(I), ..., µk
m(I). Nous appe-
lons tile pas de temps o`
u la r´
eponse moyenne commence
`
aˆ
etre µk
i(I)et tm+1 le pas de temps o`
u le d´
etecteur
est appel´
e. A posteriori, chaque xk(t)a une probabilit´
e
(ti+1 ti)/(tm+1 t0)d’avoir ´
et´
e tir´
e depuis la distri-
bution de moyenne µk
i(I). L’esp´
erance moyenne de l’urne
contenant les r´
ecompenses correspondant `
a l’action kest :
µk(I) =
m
X
i=1
ti+1 ti
tm+1 t0
µk
i(I).(10)
A chaque pas de temps, par hypoth`
ese, la r´
ecompense
moyenne du meilleur bras est sup´
erieure `
a celle de n’im-
porte quel autre bras d’au moins 4. Par cons´
equent, la
diff´
erence entre la r´
ecompense moyenne de l’urne du bras
optimal ket celle d’un autre bras kest au moins de 4si le
meilleur bras ne change pas au cours de l’intervalle.
µk(I)
m
X
i=1
ti+1 ti
tm+1 t0
(µk
S
i4)µk
S(I)4 . (11)
Les arguments suivant montrent l’´
equivalence entre une
d´
etection et l’optimalit´
e de k
Savec une forte probabilit´
e.
En utilisant l’in´
egalit´
e de Serfling [Ser], nous avons :
P(ˆµk(I) + µk(I))) e
2n2
1n1
Ue2n2=δ , (12)
o`
un=γH
Kest le nombre d’observations et Ula taille de
l’urne. Nous utilisons δpour d´
ecrire la quantit´
eP(ˆµk(I) +
µk(I))). Nous avons, avec une probabilit´
e d’au moins
4
12δ,ˆµk(I) + µk(I)et ˆµk
S(I)µk
S(I).
Par cons´
equent, si ˆµk
S(I)ˆµk(I)2alors, avec une
haute probabilit´
e, µk(I)µk(I). Le d´
etecteur utilise
l’intervalle de confiance sup´
erieur pour l’actuel meilleur
bras estim´
e et l’inf´
erieur pour le bras candidat. Lorsque
les deux intervalles sont valides, dans le pire des cas, cha-
cun des estimateurs sont ´
eloign´
es de la vraie moyenne
de . Le d´
etecteur ajoute ensuite `
a chaque estimateurs.
L’in´
equation (11) assure que tout les changements de
meilleur bras sont d´
etect´
es.
Le th´
eor`
eme 1 borne l’esp´
erance du regret cumul´
e
dEXP3.R.
Th´
eor`
eme 1. Pour tout K > 0,0< γ 1,0δ < 1
2,
HKet N1, quand l’hypoth`
ese 1 est valide,
l’esp´
erance du regret d’EXP3.R v´
erifie
GE[GEXP3.R](e1)γT
+N1 + KδT
H+KδKlog(K)
γ
+ (N1)HK 1
12δ+ 1.(13)
D´
emonstration. Premi`
erement, nous obtenons la structure
principale de la borne. Dans ce qui suit, L(T)d´
ecrit
l’esp´
erance du nombre d’intervalle apr`
es un changement de
meilleure action avant sa d´
etection et F(T)l’esp´
erance du
nombre de fausses d´
etections jusqu’alors. En utilisant les
mˆ
eme arguments que [YM09], nous d´
eduisons la forme
de la borne depuis la borne classique d’EXP3. Il y a
N1changements de meilleur bras, ainsi le nombre de
r´
e-initialisations `
a l’horizon Test born´
e sup´
erieurement par
N1 + F(T). Le regret d’EXP3 sur ces p´
eriodes est (e
1)γT +Klog K
γ[ACBFS02]. Alors que notre politique opti-
male joue le bras ayant la plus haute r´
ecompense moyenne,
la politique d’EXP3 joue le bras ayant la plus haute
r´
ecompense cumul´
ee sur la p´
eriode [TS, TS+1). Comme
TS+11
X
t=TS
xk
S(t)max
k
TS+11
X
t=TS
xk(t),(14)
le gain de notre politique optimale sur une p´
eriode est
born´
e sup´
erieurement par le gain de la politique optimale
d’EXP3. En sommant sur chaque p´
eriode nous obtenons
(e1)γT +(N1+F(T))Klog K
γ.
Le regret comprend aussi le d´
elais entre le changement de
meilleur bras et sa d´
etection. Pour ´
evaluer l’esp´
erance de
la taille de l’intervalle s´
eparant chaque appel du test, nous
consid´
erons un algorithme fictif collectant uniquement les
observations d’un bras avant de passer au suivant jusqu’`
a
avoir collect´
e toutes les observations. Les γ-observations
sont tir´
ees avec une probabilit´
eγ
Ket γH
Kobservations sont
n´
ecessaires par action. L’esp´
erance du nombre d’´
echecs
avant de r´
eussir `
a collecter γH
Kγ-observations suit une loi
binomiale n´
egative d’esp´
erance
γH
K(1 γ
K)K
γ=HγH
K.(15)
L’esp´
erance du nombre de tirages `
a la fin de la collecte est
le nombre de succ`
es plus le nombre esp´
er´
e d’´
echecs :
γH
K+HγH
K=H . (16)
En sommant sur tout les bras, nous obtenons une esp´
erance
totale de HK.´
Etant donn´
e que notre algorithme peut
collecter les observations de n’importe quel bras `
a n’im-
porte quel moment, sur une mˆ
eme s´
equence de tirages,
notre algorithme aura fini sa collecte avant l’algorithme
pr´
ec´
edemment d´
ecrit. Par cons´
equent, l’esp´
erance du temps
entre chaque appel du test est born´
ee sup´
erieurement par
HK et inf´
erieurement par H, l’esp´
erance du temps de col-
lecte pour un bras. Il y a N1changements de meilleure
action et la d´
etection se produit au plus dL(T)eHK tour
apr`
es le changement. Pour finir, il y a aussi au plus N1in-
tervalles o`
u les changements de meilleur bras se produisent.
Durant ces intervalles, nous n’avons pas de garanties sur le
comportement du test. Dans le pire des cas, le test ne d´
etecte
pas de changement et le regret instantan´
e est de 1.
GE[GEXP3.R](e1)γT
+(N1 + F(T))Klog K
γ+(N1)HK(dL(T)e+1) .
(17)
Nous bornons maintenant F(T)et L(T). Les inter-
valles de confiance sont valides avec une probabilit´
e d’au
moins 1δet ils sont utilis´
es Kfois `
a chaque test.
En utilisant l’in´
egalit´
e de Boole, nous d´
eduisons que
F(T)Kδ(T
H+ 1).L(T)est la premi`
ere occurrence de
l’´
ev`
enement D´
ETECTION apr`
es un changement de meilleur
bras. Quand un tel changement se produit, le lemme 1 ga-
rantit que la d´
etection se produira avec une probabilit´
e d’au
moins 12δ. Nous avons L(T)1
12δ.
GE[GEXP3.R](e1)γT
+N1 + KδT
H+KδKlog K
γ
+ (N1)HK 1
12δ+ 1.(18)
5
1 / 9 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !