Eléments en théorie des probabilités et en

publicité
Eléments en théorie des probabilités
et en statistiques
Damien Nouvel
Damien Nouvel (Inalco)
Probabilités et statistiques
1 / 15
Généralités
Scrabble : un sac avec des lettres (simplifié : lettres A et B)
ñ Chances de tirer la lettre A ?
§
• Modèle du “monde” (probabilités) à l’aide de connaissances
• Calcul par rapport à un historique de données (statistiques)
ñ Deux tirages, quelles chances de tirer deux fois B ?
• Combinatoire (énumération des lettres pour deux tirages)
ñ Modélisation du monde (probabilités) versus données sur le
monde (statistiques)
ñ Discret (probabilités) versus continu (statistiques)
Damien Nouvel (Inalco)
Probabilités et statistiques
2 / 15
Théorie des probabilités
Plan
1. Théorie des probabilités
2. Statistiques
Damien Nouvel (Inalco)
Probabilités et statistiques
3 / 15
Théorie des probabilités
Terminologie et notations
§
Modélisation du “monde des possibles” tΩ, A, Pu :
• Ensembles Ω et événements A
• Mesure de probabilité d’événements P(A) P [0, 1]
• Combinaisons et dépendances entre événements
ñ Etat du monde (abstraction de l’aspect temporel)
§
Notations pour des événements tA, Bu :
•
•
•
•
Négation : A
Intersection (conjonction, probabilité jointe) A X B
Union (disjonction) A Y B
Dépendance : A sachant B, P(A|B)
ñ Un symbole pour un événement ?
§ Variable aléatoire X telle que X P tA, B . . . Zu
ñ Valeurs symboliques (discrètes) ou numérique (continues)
Damien Nouvel (Inalco)
Probabilités et statistiques
4 / 15
Théorie des probabilités
Axiomes de probabilités
§
Lois générales :
• P(A Y A) = 1
• P(A Y B) = P(A) + P(B) ´ P(A X B)
• Si A et B sont disjoints :
• A X B = ∅ et P(A X B) = 0
• P(A Y B) = P(A) + P(B)
• Si A et B sont indépendants :
• P(A X B) = P(A) ˚ P(B)
ñ “Il n’y a pas de corrélation entre ces deux événements”
§
Théorème de Bayes :
• P(A X B) = P(A|B) ˚ P(B) = P(B|A) ˚ P(A)
ñ “La probabilité qu’une intersection d’événements se
produise est celle que l’un des deux se produise multipliée
par celle que l’autre se produise sachant que le premier
s’est produit (et inversement)”
Damien Nouvel (Inalco)
Probabilités et statistiques
5 / 15
Théorie des probabilités
Quelques calculs en combinatoire
§
À partir d’un ensemble de n éléments
• Sous-ensembles possibles : 2n
• Tirer k éléments avec remise et ordonnés
• nk possibilités
ñ Tirer trois six en jetant trois fois un dé
• Tirer k éléments sans remise et ordonnés
• Si k = n alors k! arrangements (permutations) possibles
n!
• Sinon Akn =
arrangements possibles
(n ´ k)!
ñ Tirer valet, dame, roi (dans l’ordre) parmi les cœurs
• Tirer k éléments sans remise sans ordre
• Une combinaison de k éléments donne k! arrangements
( ) Ak
n!
• Donc nk = n =
combinaisons possibles
k!
k!(n ´ k)!
ñ Tirer un valet, une dame et un roi parmi les cœurs
Damien Nouvel (Inalco)
Probabilités et statistiques
6 / 15
Théorie des probabilités
Lois de probabilités
§
Distributions de probabilités :
• Une variable aléatoire X
• Une loi L avec paramètres (p1 , p2 . . . pn )
ñ X suit la distribution L(p1 , p2 . . . pn ), noté X „ L
les probabilités des réalisations de X sont calculables
§
Quelques lois courantes :
•
•
•
•
•
Uniforme : tous les événements sont équiprobables
Bernouilli : un seul tirage à deux issues
Binomiale : plusieurs tirages sans remise à deux issues
Multinomiale : plusieurs tirages à plusieurs issues
Normale (Gauss, gaussienne, Laplace-Gauss) : cloche
Deux fonctions pour calculer les probabilités :
• Densité de probabilité : P(X = a)
• Fonction de répartition : P(X ă a) (intégrale de densité)
Damien Nouvel (Inalco)
Probabilités et statistiques
7 / 15
Statistiques
Plan
1. Théorie des probabilités
2. Statistiques
Damien Nouvel (Inalco)
Probabilités et statistiques
8 / 15
Statistiques
Séries de données
§
§
Utilisation des probabilités au regard de données
Soit une série x de données (x1 , x2 . . . xn ) :
• Les indices ne sont pas (forcément) liés au temps :
• Tirages indépendants de lettres
• Positions dans un texte
• Objets d’une base de données
• Un échantillon est une sous-partie de la série
• Calculs d’estimateurs :
1 ř
• Moyenne µx =
xi
n i=1...n
ñ aussi notée x (aucun rapport avec la négation) ou |X|
1 ř
• Variance V(X) =
(xi ´ µx )2
n i=1...n
c
a
1 ř
• Ecart-type σx = V(X) =
(xi ´ µx )2
n i=1...n
Damien Nouvel (Inalco)
Probabilités et statistiques
9 / 15
Statistiques
Covariance et corrélation
§
§
Comparer deux séries (x1 , x2 . . . xn ) et (y1 , y2 . . . yn )
Covariance (produit
des variances à la moyenne) :
ř
• σxy =
1
n
(xi ´ µx ) ˚ (yi ´ µy )
i=1...n
• Exemple covariant (1) :
• x = (1, 3, ´2) et y = (5, 10, ´3), µx = 0, 66 et µy = 4
• σxy = (1/3) ˚ ((1 ´ 0, 66) ˚ (5 ´ 4) + (3 ´ 0, 66) ˚ (10 ´ 4) +
(´2 ´ 0, 66) ˚ (´3 ´ 4)) = 11
• Exemple non covariant (2) :
• x = (1, 3, ´2) et z = (3, ´5, 2), µx = 0, 66 et µz = 0
• σxz = ´5, 33
ñ Grande lorsque les variables varient ensemble
§
Coefficient de corrélation (Bravais-Pearson) :
σxy
σx ˚ σy
• Exemples : rxy = 0.99 et rxz = ´0.73
ñ Valeur dans [´1, 1] (de covariant à contravariant)
• rxy =
Damien Nouvel (Inalco)
Probabilités et statistiques
10 / 15
Statistiques
Statistiques discrètes pour la linguistique
ñ Linguistique et statistiques ne font pas bon ménage...
§ Séries : quel ordre pour les termes :
• Lexicographique ?
• Par fréquences ?
• Par « poids sémantique » ?
§
Problèmes d’échantillonnage :
• Eparpillement des données (données éparses, sparsity)
• Ressources complémentaires
• Sélection de traits, régularisation
• Valeurs manquantes :
• Discrétisation d’échantillons (amplitudes, moyennes)
• Fenêtres glissantes
• Données marginales (outliers)
§
Problèmes de variation, de bruit, d’évolution...
Damien Nouvel (Inalco)
Probabilités et statistiques
11 / 15
Statistiques
Paradoxe de Simpson
§
Source : Science étonnante #7
Damien Nouvel (Inalco)
https://www.youtube.com/watch?v=vs_Zzf_vL2I
Probabilités et statistiques
12 / 15
Statistiques
Exemples de statistiques avec Python
§
Fonction Python (somme) :
§
Fonction scipy (binomiale / normale) :
sum([1, 3, 7])
from scipy import stats
print stats.binom(10,0.2).pmf(3) # loi binomiale
print stats.norm(10, 3).pdf(10) # loi normale
§
Fonctions numpy :
• Calculer une moyenne et un écart-type :
import numpy
a = numpy.array([1, 5, 3])
numpy.mean(a)
numpy.std(a)
• Calculer une covariance et un coefficient de corrélation :
b = numpy.array([3, 15, 2])
numpy.cov(a, b, bias=1)[0, 1]
numpy.corrcoef(a, b, bias=1)[0, 1]
Damien Nouvel (Inalco)
Probabilités et statistiques
13 / 15
Statistiques
Aborder un problème statistique
§
Questions de modélisation des probabilités :
•
•
•
•
Probabilité
Probabilité
Probabilité
Probabilité
d’un événement ?
de répétitions d’un événement ?
jointe de deux événements ?
d’un événement sachant un autre événement ?
ñ Travail préparatoire en déterminant
• Variables à étudier
• Valeurs qu’elles prennent (discrètes, continues)
• Lois (distributions) de probabilités à utiliser
ñ Prévoir (et implémenter) les calculs à réaliser
ñ Savoir comment visualiser les résultats
ñ Autant possible, mesurer et évaluer la solution
Damien Nouvel (Inalco)
Probabilités et statistiques
14 / 15
Statistiques
Exercice
§
Sur le corpus
• Nombre de mots par phrase
• Calculer la moyenne du nombre de mots par phrase.
• Calculer l’écart-type du nombre de mots par phrase.
• Déduire la densité théorique du nombre de mots par phrase.
• Visualiser et comparer avec celle des données.
• Nombre d’entités nommées par mot(s)
• Combien de phrases contiennent trois entités ?
• Quelle loi modélise la probabilité qu’un mot soit une entité ?
• Comment estimer cette probablité à partir des données ?
• Quelle loi permet de calculer cette probabilité pour n mots ?
• Calculer la densité théorique du nombre d’entités par phrase.
• La comparer avec cette même densité dans les données.
• Corrélations
• Les nombre de mots / entités sont-ils corrélés ?
• Quelles entités sont corrélées les unes aux autres ?
Damien Nouvel (Inalco)
Probabilités et statistiques
15 / 15
Téléchargement