Statistiques mathématiques
E. Moulines, F. Roueff, A. Sabourin
11 septembre 2016
Table des matières
1 Analyse statistique des données 4
1.1 Objectifs de l’analyse statistique, exemples .................... 4
1.2 Formalisation statistique d’un problème ..................... 6
1.2.1 Cadre probabiliste, notations ....................... 6
1.2.2 Modèle statistique et paramétrisation .................. 7
1.3 Modèles paramétriques, non-paramétriques ; identifiabilité. ........... 8
1.4 Modèles dominés .................................. 11
1.5 Nombre d’observations ............................... 13
1.6 Actions, procédures de décision, fonction de perte et risque .......... 13
1.7 Règles randomisées (règles mixtes)........................ 17
1.8 Résumé du chapitre ................................ 18
2 Estimation ponctuelle 20
2.1 Met Z–estimateurs ................................ 20
2.2 Méthode des moindres carrés ........................... 21
2.3 Méthode des moments ............................... 22
2.4 Méthode du Maximum de vraisemblance ..................... 27
2.5 Famille exponentielle ................................ 30
2.6 Maximum de vraisemblance pour la famille exponentielle........... 31
3 Risque quadratique 33
3.1 Risque quadratique ................................. 33
3.2 Information de Fisher, Borne de Cramér-Rao .................. 35
3.2.1 Modèle statistique régulier, information de Fisher ............ 35
3.2.2 Borne de Cramér-Rao : paramètre scalaire ................ 37
3.2.3 Borne de Cramér-Rao : paramètre vectoriel ............... 39
3.2.4 Cas des famille exponentielle ....................... 40
4 Optimalité des décisions :
cadre classique et cadre bayésien 42
4.1 Difficultés liées à la minimisation uniforme du risque .............. 42
4.2 Optimalité du risque sous contrainte ....................... 43
4.3 Risque minimax ................................... 44
4.4 La modélisation bayésienne ............................ 45
4.4.1 Modèle bayésien .............................. 45
4.4.2 Loi jointe, loi marginale des observations ................ 46
1
4.4.3 Conditionnement .............................. 46
4.4.4 Loi a posteriori ............................... 48
4.4.5 Espérance a posteriori ........................... 49
4.5 Familles conjuguées ................................. 53
4.6 Risque bayésien, risque intégré .......................... 54
5 Tests statistiques 58
5.1 Tests statistiques et théorie de la décision .................... 58
5.1.1 Risques et puissance d’un test ....................... 58
5.1.2 Tests randomisés............................. 61
5.1.3 Approche de Neyman–Pearson ...................... 62
5.2 Test de Neyman-Pearson (Rapport de vraisemblance) : cas d’hypothèses simples 63
5.3 Existence d’un test U.P.P. avec randomisation................. 64
5.4 Exemples ...................................... 65
5.5 Rapport de vraisemblance monotone ....................... 70
5.6 Approche bayésienne ................................ 75
5.7 Lien entre approche bayésienne et approche de Neyman-Pearson ....... 78
6 Intervalles et régions de confiance 82
6.1 Régions et intervalles de confiance ........................ 82
6.2 Lien avec la théorie de la décision ......................... 83
6.3 Construction à l’aide de fonctions pivotales ................... 84
6.4 Dualité entre régions de confiance et tests d’hypothèse de base simple . . . . 89
6.5 Le cas du rapport de vraisemblance monotone .................. 91
A Rappels de probabilité 93
A.1 Espace de probabilité ................................ 93
A.2 Probabilité ..................................... 94
A.3 Variables aléatoires ................................. 96
A.4 Quelques inégalités utiles ............................. 101
A.5 Mesures σ-finies ................................... 102
A.6 Moments d’ordre p, espaces Lpet Lp....................... 103
A.7 Variance, covariance ................................ 105
A.8 Indépendance. Mesures produits ......................... 106
A.9 Fonction caractéristique .............................. 108
A.10 Fonction génératrice des moments ........................ 109
A.11 Espérance conditionnelle .............................. 110
A.12 Lois usuelles ..................................... 116
A.12.1 Loi gaussienne ............................... 116
A.12.2 Propriétés .................................. 118
A.12.3 Vecteurs aléatoires gaussiens et densités ................. 119
A.12.4 Loi Gamma ................................. 120
A.12.5 Loi du χ2àkdegrés de liberté ...................... 121
A.12.6 Loi de Student ............................... 122
A.12.7 Loi de Fisher ................................ 124
2
Ce cours de statistique s’appuie principalement sur les ouvrages de Bickel and Doksum
[2015], Lehmann and Casella [1998], Lehmann [1959] et Shao [2008].
3
Chapitre 1
Analyse statistique des données
1.1 Objectifs de l’analyse statistique, exemples
La plupart des études et des expériences, commerciales, industrielles, ou scientifiques,
produisent des données. Au cours de la dernière décennie, le volume total des données stockées
a considérablement augmenté, ainsi que les moyens informatiques permettant leur traitement.
Une prise de conscience s’opère sur la valeur potentielle de ces grandes masses de données,
aussi bien pour le secteur privé que pour le secteur public (par exemple, dans les domaines de
la santé publique ou de la gestion des risques industriels, sociétaux ou environnementaux).
L’objet des statistiques est d’extraire de ces données « de la valeur », autrement dit des
informations utiles. Le point de vue particulier des statistiques est de considérer ces données
comme la réalisation d’une expérience aléatoire. La modélisation mathématique de celle-
ci permet de conduire une analyse et un traitement adapté des données (le plus souvent
automatique) afin de répondre à des objectifs concrets comme l’apprentissage, le contrôle
de qualité, etc. La plupart de ces objectifs particuliers ont un point commun : il s’agit de
fournir des outils d’aide à la décision en milieu incertain, en extrayant l’information partielle
contenue dans les données à disposition de l’analyste. Dans la suite de ce cours, on utilisera
indifféremment les termes inférence,apprentissage,analyse statistique pour faire référence à
un processus automatisé d’extraction d’information à partir des données. Avant de formaliser
cette approche, donnons quelques exemples.
Exemple 1.1 (Nombre d’objets défectueux):
Considérons une grande population de Néléments, par exemple des objets manufacturés ou des
clients d’une entreprise, ou des patients exposés à une maladie. Un nombre inconnu de ces objets,
Nθ est défectueux (resp. est sur le point de résilier son contrat, c’est-à-dire de « churner », ou est
malade). Il est trop coûteux d’examiner individuellement chacun de ces objets. On s’intéresse à la
proportion de défauts θ. Pour obtenir une information sur θ, on tire sans remise un échantillon de
néléments parmi Net l’on observe le nombre Xd’éléments défectueux (resp. de churners, ou de
malades) dans cet échantillon. La description mathématique de cet exemple est simple.
Le nombre Xd’objets défectueux parmi les nobjets choisis au hasard est appelée “observation”.
L’observation prend donc ici des valeurs entières, positives. Pour n, N et θfixés, on calcule
facilement la loi Pθ:
1. Tout d’abord, Xne “peut pas” valoir plus que n, ni que Nθ (la quantité totale d’objets
défectueux). C’est à dire, avec probabilité 1,Xmin(n, Nθ).
4
1 / 128 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !