TD Modélisation Statistique

publicité
Licence 3 Mathématiques
TD Modélisation Statistique
Ex 1.
Soit X une variable aléatoire réelle de densité f continue et de fonction répartition F .
1. Calculer la fonction de répartition de Y = αX + β pour α, β ∈ R, et celle de Z = eX . En déduire
leurs densités (pour α 6= 0).
2. Retrouver les densités de Y et Z en utilisant la formule du changement de variable.
Soient Y1 et Y2 deux variables aléatoires réelles de densités respectives f1 et f2 continues, et X
une variable de Bernoulli de paramètre p indépendante de Y1 et Y2 . Déterminer la densité de la variable
aléatoire
Ex 2.
Y = Y1 X + Y2 (1 − X).
Ex 3.
Un vecteur Gaussian standard (X, Y )> de R2 est un vecteur aléatoire de densité
f (x, y) =
x2 + y 2 1
exp −
, x, y ∈ R.
2π
2
1. On considère les coordonnées polaires en posant X = R cos(T ) et Y = R sin(T ) avec R ≥ 0 et
T ∈ [0, 2π[. Montrer que les variables aléatoires R et T sont indépendantes et préciser leurs lois.
2. Soit (U, V ) un couple de variables aléatoires indépendantes uniformes sur [0, 1]. Déduire de la
question précédente que le couple
(X, Y ) =
p
p
−2 ln(U ) cos(2πV ), −2 ln(U ) sin(2πV ) ,
est un vecteur Gaussien standard de R2 .
Ex 4.
Soit X ∼ N (0, 1), on rappelle que la fonction caractéristique de X est donnée par
ϕX (t) = exp(−t2 /2) , t ∈ R.
1. Calculer la fonction caractéristique d'un vecteur Gaussien standard X = (X1 , ..., Xk )> .
2. En déduire la fonction caractéristique d'un vecteur Gaussien quelconque Y ∼ N (m, Σ). On pourra
= m + Σ1/2 X .
utiliser que Y loi
Ex 5.
Montrer qu'il existe un vecteur Gaussien X = (X1 , X2 , X3 )> qui vérie:
∀1 ≤ i < j ≤ 3 , E(Xi ) = 0 , E(Xi2 ) = 1 , E(Xi Xj ) = 1/2.
1. Quelle est la loi de X1 − X2 + 2X3 ?
2. Trouver a ∈ R tel que X1 + aX2 et X1 − X2 soient indépendantes.
3. X admet-il une densité? si oui laquelle?
Soit X ∼ N (0, 1) et Y une v.a. indépendante de X telle que P(Y = 1) = P(Y = −1) = 1/2.
On pose Z = XY .
Ex 6.
1. Quelle est la loi de Z ?
2. Quelle est la loi de X + Z ? En déduire que (X, Z)> n'est pas un vecteur Gaussien.
1
Ex 7.
Soit X ∼ N (0, 1) et a > 0. on pose
Ya := X1{|X| < a} − X1{|X| ≥ a}
1. Montrer que Ya est une variable aléatoire Gaussienne.
2. Montrer qu'il existe b > 0 tel que
Rb
0
x2 e−x
2
/2
dx =
√
2π/4.
3. Calculer cov(X, Yb ). Le vecteur (X, Yb )> est-il un vecteur Gaussien?
Ex 8.
Soit −1 < ρ < 1, on pose
Σ=
1 ρ
ρ 1
.
1. Montrer qu'il existe un vecteur Gaussien X = (X1 , X2 )> centré et de matrice de variance Σ.
2. On pose Y1 = (X1 + X2 ) et Y2 = (X1 − X2 ). Donner la loi de Y = (Y1 , Y2 )> .
3. Les variables Y1 et Y2 sont-elles indépendantes?
4. Justier que Y admet une densité sur R2 et la calculer.
Ex 9.
Soit X une variable aléatoire réelle de densité f et de fonction répartition F .
1. Montrer que 1{X ≤ x} = 1{F (X) ≤ F (x)}.
ps
2. Déduire la loi de F (X) lorsque F est continue.
3. Soit X1 , ..., Xn un échantillon iid de même loi que X . Montrer que, si F est continue, la loi de
n
1 X
1{Xi ≤ x} − F (x)
Kn := sup x∈R n i=1
ne dépend pas de F .
Ex 10.
Soit U une variable aléatoire de loi uniforme sur ]0, 1[.
1. Déterminer la loi de Y = − log(U ) et Z = tan π(U − π/2) .
2. Montrer dans le cas général que, pour F une fonction de répartition, la variable aléatoire
X := F − (U ) = inf{x ∈ R : F (x) ≥ U }
a pour fonction de répartition F .
Ex 11.
Soit X1 , ..., Xn un échantillon de variables aléatoires réelles iid de fonction de répartition F .
1. Rappeler la dénition de la fonction de répartition empirique Fn .
2. Soit x ∈ R, quelle est la loi de Fn (x)?
3. Soient x, y deux réels, calculer la covariance cov(Fn (x), Fn (y)).
4. En utilisant le théorème central limite vectoriel, donner la loi asymptotique de
√
Ex 12.
f.
n
Fn (x) − F (x)
Fn (y) − F (y)
.
On observe n réalisations x1 , ..., xn d'un échantillon de variables aléatoires réelles iid de densité
1. Rappeler l'expression de l'estimateur à noyaux fn de f obtenu avec le noyau Gaussien
s2 1
, s ∈ R,
K(s) = √ exp −
2
2π
et la fenêtre h > 0.
2
2. Calculer
R
R
xfn (x)dx. Que représente cette intégrale.
3. Soit Y une variable aléatoire de loi uniforme sur {x1 , ..., xn } et une variable aléatoire indépendante
de Y de loi N (0, h2 ). Calculer la densité de Z := Y + . Commenter.
4. Proposer une méthode pour simuler une variable aléatoire dont la densité est l'histogramme mobile
n
1 X
gn (x) =
1{xi ∈]x − h, x + h]}.
2nh i=1
Ex 13.
Soit X une variable aléatoire de fonction de répartition F quelconque.
1. Rappeler la dénition d'un quantile d'ordre α ∈]0, 1[.
2. Montrer que F − (α) est bien un quantile d'ordre α.
3. Donner un exemple de fonction de répartition pour laquelle la médiane q0.5 n'est pas unique.
4. Donner un exemple pour lequel le premier quartile q0.25 vérie simultanément les inégalités strictes
P(X ≤ q0.25 ) > 0.25 et P(X ≥ q0.25 ) > 0.75.
Ex 14.
Soit X1 , ..., Xn un échantillon de variables aléatoires réelles iid de fonction de répartition F
et de densité f . On considère les variables ordonnées X(1) ≤ ... ≤ X(n) .
1. Calculer la fonction de répartition de X(n) , puis celle de X(1) .
2. Montrer que si f est à support compact [a, b], alors X(1) et X(n) convergent en probabilité vers a
et b respectivement quand n → ∞.
3. Montrer que presque sûrement, X(1) < ... < X(n) .
4. Soient a1 , ..., an des réels diérents, montrer que pour > 0 susamment petit
\
n
{ai < X(i) ≤ ai + } = 0
P
i=1
si les ai ne sont pas ordonnées dans l'ordre croissant.
5. Soit S l'ensemble des permutations de {1, ..., n}, montrer que si a1 < ... < an , alors pour suisamment petit,
X \
\
n
n
{ai < Xσ(i) ≤ ai + } .
{ai < X(i) ≤ ai + } =
P
P
i=1
σ∈S
i=1
6. En déduire la densité fX(1) ,...,X(n) du n-uplet (X(1) , ..., X(n) ) par la formule
fX(1) ,...,X(n) (a1 , ..., an ) = lim
→0+
1
P X(1) ∈]a1 , a1 + ], ..., X(n) ∈]an , an + ] .
n
Soit U1 , ..., Un un échantillon de variables aléatoires iid de loi uniforme sur ]0, 1[. On s'intéresse
au comportement asymptotique du quantile empirique d'ordre α ∈]0, 1[, U(dnαe) .
Ex 15.
1. Calculer la densité de la k-ième statistique d'ordre U(k) .
2. Soit X1 , ..., Xn+1 des variables aléatoires
indépendantes de loi exponentielle de paramètre 1, montrer
P
que pour tout k = 1, ..., n + 1, Sk = ki=1 Xi suit une loi Gamma Γ(k, 1) de densité
γk (x) =
xk−1 −x
e , x > 0.
(k − 1)!
3. Montrer que Sk /Sn+1 a même loi que U(k) .
3
4. Déterminer la limite en loi de Sdnαe − dnαe / dnαe.
p
5. En remarquant que
dnαe
=α
n→∞
n
lim
√ dnαe
n
− α = 0,
n→∞
n
et
lim
montrer d'après la question précédente que
√ Sdnαe
√ Sn+1 − Sdnαe
loi
loi
n
− α −−−−→ N (0, α) et n
− (1 − α) −−−−→ N (0, 1 − α).
n→∞
n→∞
n
n
6. En déduire que
√ Sn+1 − Sdnαe
Sdnαe loi
n α
− (1 − α)
−−−−→ N 0, α(1 − α) ,
n→∞
n
n
puis que
Yn :=
1 − α
√ Sn+1 − Sdnαe
loi
− (1 − α) −−−−→ N 0,
.
n α
n→∞
Sdnαe
α
√
7. En remarquant
que U(dnαe) loi
= α/(1 + Yn / n) (cf. question 3), montrer qu'il existe ξn compris entre
√
0 et Yn / n tel que
U(dnαe) = α −
8. En conclure que
Zn :=
√
Y
α
√n .
(1 + ξn )2 n
loi
n U(dnαe) − α −−−−→ N (0, α(1 − α)).
n→∞
9. Soit F une fonction de répartition. Justier que F − (U(dnαe) ) a même loi que la statistique d'ordre
X(dnαe) d'un échantillon iid X1 , ..., Xn ayant pour fonction de répartition F .
10. On suppose maintenant que F admet un unique quantile d'ordre α, noté qα , et que F est strictement
croissante et continuement diérentiable sur un voisinage de qα . Montrer que
√
Ex 16.
α(1 − α) loi
n X(dnαe) − qα −−−−→ N 0, 0
.
n→∞
F (qα )2
Soient X et Y deux variables aléatoires non constantes de carré intégrable.
1. Rappeler la dénition de cov(X, Y ) et cor(X, Y ).
2. Montrer que pour tout α, β ∈ R, cov(αX + β, Y ) = α cov(X, Y ).
3. Calculer cor(αX + β, Y ) en fonction de cor(X, Y ) pour α 6= 0.
On considère deux échantillons de n variables (X1 , . . . , Xn ) et (Y1 , . . . , Yn ). On note (R1 , . . . , Rn )
(resp. (S1 , . . . , Sn )) les rangs des variables Xi (resp. Yi ) dans chaque échantillon. On suppose que les Xi
et les Yi sont tous diérents, de telle sorte que les rangs vont de 1 à n. On rappelle que le coecient de
corrélation de Spearman γn entre les échantillons (X1 , . . . , Xn ) et (Y1 , . . . , Yn ) correspond à la corrélation
linéaire entre leurs rangs.
Ex 17.
1. Donner la formule dénissant γn .
2. Montrer que la moyenne empirique de l'échantillon (R1 , . . . , Rn ) vaut (n + 1)/2 et que sa variance
empirique vaut (n2 − 1)/12.
3. En déduire que
n
γn =
4. Soit Di = Ri − Si . Montrer que 12
5. En déduire que
X
n+1
12
Ri Si − 3
.
n(n2 − 1) i=1
n−1
Pn
i=1
Ri Si = n(n + 1)(2n + 1) − 6
Pn
6 i=1 Di2
γn = 1 −
.
n(n2 − 1)
4
Pn
i=1
Di2 .
Ex 18.
Soit (X, Y ) un couple de variables aléatoires de variances nies.
1. Rappeler la dénition de la meilleure approximation linéaire L(Y |X) = a∗ X + b∗ .
2. Montrer que E(aX + b) = E(Y ) et cov(Y − (aX + b), X) = 0 si et seulement si (a, b) = (a∗ , b∗ ).
Ex 19.
Soit (X1 , Y1 ), ..., (Xn , Yn ) des réalisations indépendantes d'un couple de variables aléatoires
(X, Y ) non constantes et de variances nies.
1. Donner la dénition de la droite des moindres carrés y = an x + bn et rappeler les valeurs de an et
bn .
2. Montrer que an et bn convergent presque sûrement en précisant leurs limites.
Soit (Xi , Yi ), i = 1, ..., n (n ≥ 2) des réalisations indépendantes d'un vecteur aléatoire (X, Y ).
On suppose que Y = a∗ X + b∗ + où est centré et indépendant de X et on note
Ex 20.

Y1




Y =  ...  ∈ Rn
Yn
X1
1
Xn
1
.
et W = 
 ..

.. 
n×2
. ∈R .
1. Ecrire sous forme matricielle la relation: ∀i = 1, ..., n, Yi = a∗ Xi + b∗ + i , en posant θ∗ = (a∗ , b∗ )> .
2. On suppose maintenant que X a pour densité fX . Montrer que W> W est presque sûrement inversible.
3. Donner une expression matricielle du minimiseur θ̂ de
θ 7→ kY − Wθk2 = (Y − Wθ)> (Y − Wθ), θ ∈ R2 .
4. Exprimer les valeurs θ̂1 et θ̂2 en fonction de X n , Y n , σ̂(X, Y ) etc...
Ex 21.
On dénit la variance conditionnelle par
var(Y |X) = E(Y 2 |X) − E(Y |X)2 .
Montrer l'égalité var(Y ) = var E(Y |X) + E var(Y |X) .
Ex 22.
Soit X et deux variables aléatoires indépendantes de variances nies. On dénit
Y = g(X) + où g est une fonction continue bornée.
1. On suppose que E() = 0, montrer que E(Y |X) = g(X).
2. Que vaut E(Y |X) si E() = m 6= 0?
Ex 23.
Soit (X, Y ) un couple de variables aléatoires de densité jointe
p
1
1 − ρ2
fXY (x, y) =
exp − x2 + y 2 + 2ρxy , x, y ∈ R,
2π
2
avec ρ ∈] − 1, 1[.
1. Montrer que fXY est une densité (poser (u, v) =
polaires).
p
1 − ρ2 x, y + ρx , puis passer en coordonnées
2. Justier que E|X|k < ∞ pour tout k ∈ N. Calculer E(X) et var(X).
3. Donner une condition nécessaire et susante pour que X et Y soient indépendantes.
4. Calculer l'espérance conditionnelle φ∗ (x) = E(Y |X = x). Commenter.
5
Ex 24.
Soit (X1 , Y1 ), ..., (Xn , Yn ) des réalisations indépendantes d'un couple de variables aléatoires
(X, Y ) de densité jointe fXY continue et de densités marginales fX et fY . On suppose que fX (x) > 0
pour tout x ∈ R.
1. Soit > 0, exprimer P |X − x| ≤ sous la forme d'une
intégrale, puis en fonction de FX , la
fonction de répartition de X . Justier que P |X − x| ≤ > 0.
2. Proposer un estimateur de P |X − x| ≤ .
3. Proposer un estimateur de E Y 1{|X − x| ≤ } .
4. Soit A un événement de probabilité strictement positive. Rappeler la formule de E(Y |A).
5. En déduire un estimateur de E(Y | |X − x| ≤ ). Montrer qu'il correspond à un estimateur de
Nadaraya-Watson particulier, en précisant les valeurs du noyau et de la fenêtre.
6. Calculer lim→0 E(Y | |X − x| ≤ ). Commenter.
Pour calibrer un radar, on relève les erreurs de mesure sur 70 essais. La moyenne des erreurs
vaut 0, 27 et l'écart-type 0.35.
Ex 25.
1. Proposer un moyen de tester au niveau α = 0.05 asymptotiquement si les erreurs de mesure sont
centrées.
2. Comment est calculée la p-value du test?
Ex 26.
On eectue 100 lancés de dé et on obtient les résultats suivant
1 2
15 23
3
4 5
16 20 14
6
12
1. Proposer un moyen de tester au niveau α = 0.05 si le dé est pipé.
2. Comment est calculée la p-value du test?
Ex 27.
Soient X, Y deux variables aléatoires indépendantes de loi de Poisson de paramètre 1.
1. Calculer la loi de X sachant X + Y = n pour n ≥ 1.
2. Proposer une méthode pour tester expérimentalement ce résultat pour n = 4.
Ex 28.
Soit X1 , ..., Xn un échantillon.
1. Rappeler la dénition de la statistique de Spearman Sn utilisée pour le test H0 : "les Xi sont
indépendants" contre H1 : "les Xi sont stochastiquement croissants".
2. Donner une autre expression de la statistique en utilisant l'exercice 17. Commenter.
Soit (X, Y ) un couple de variables aléatoires continues de densité fXY sur R2 et tel que X est
stochastiquement supérieure à Y .
Ex 29.
1. Exprimer les fonctions de répartition FX et FY en fonction de la densité jointe fXY . Quelle inégalité
ces fonctions vérient-elles?
2. Montrer que si X et Y sont indépendantes alors P(Y ≤ X) ≥ 12 .
3. Montrer (sans supposer l'indépendance) que pour tout z ∈ R,
P(Y ≤ z) ≤ P(Y − X ≤ 0) + P(X ≤ z).
En déduire que P(X ≥ Y ) ≥ kFY − FX k∞ .
6
Ex 30.
Soit X1 , ..., Xn des variables aléatoires iid. Montrer que les suites suivantes sont stochastiquement croissantes:
1. Si =
Pi
j=1
Xj2 , i = 1, ..., n
2. Yi = Xi + log(i), i = 1, ..., n
3. Zi = iXi2 , i = 1, ..., n.
Ex 31.
Soit X1 , ..., Xn des variables aléatoires iid de densité f . Le tau de Kendall est déni par
τn =
n−1
n
X X
4
1{Xi < Xj } − 1.
n(n − 1) i=1 j=i+1
1. Montrer que les Xi sont presque sûrement tous diérents et rappeler la dénition des rangs Ri de
l'échantillon dans ce cas.
2. Exprimer la statistique τn en fonction de R1 , ..., Rn .
3. Donner la loi du vecteur R = (R1 , ..., Rn ). En déduire que la loi de τn ne dépend pas de f .
7
Téléchargement