II. Les méthodes de génération de population

publicité
DESS SIAD année 2001-2002
Génération de population agricole à partir
de données agrégées et d’un panel
représentatif de fermes.
réalisé par
Mickaël Bourion
au LISC, Cemagref de Clermont Ferrand
sous la direction de
Thierry Faure
10 septembre 2002
Sommaire
• Introduction
• I. Analyse de données
• II. Les méthodes de génération de
population
• III. L’application
• Conclusion - Perspectives
Introduction
Le contexte du stage
• Le CIAT (Centre International de l’Agriculture Tropicale)
• Données de recensement : Confidentielles !
Seuls sont disponibles:
- Données agrégées
- Echantillons
• Nécessité de créer une application
générant une population à partir de ces données
Introduction
Objectifs de l’étude
• Développer un outil réalisant la
reconstruction de population
• Utiliser la population agricole complète du
Honduras :
- Comme exemple pour l’application
- Pour étudier ses caractéristiques
- Pour manipuler les méthodes d’agrégation
Introduction
Spécifications du programme
• Outil générique (échelles et paramètres variables)
• Opération « inverse » : générer une population à partir
d’un échantillon
• Programme en sources libres
• Localisation en 3 langues
• Introduction
• I. Analyse de données
• II. Les méthodes de génération de
population
• III. L’application
• Conclusion - Perspectives
I. Analyse de données
Présentation des données
• Le Honduras
plus de 300 000 exploitations
3 échelles administratives :
Honduras
Département 1
Municipalité 100
Municipalité 101
Village 10001
Village 10023
Village 10095
Département 2
Municipalité 124
Département 18
I. Analyse de données
Présentation des données
• 3 matrices de paramètres :
- Exploitations (surfaces, usage des terres…)
- Producteurs (âge, sexe, condition juridique…)
- Productions (quantités et types…)
I. Analyse de données
Mise en œuvre d’algorithmes avec
Scilab
• Formatage des données
• Agrégations
• Corrélations entre paramètres
I. Analyse de données
Résultats
• Agrégations
• Corrélations entre paramètres : Données
trop disparates
Ré partition de s taille s de fe rm e s s e lon de s clas s e s (Ha) par dé parte m e nt
100%
10000 et +
5000 à 10000
80%
500 à 1000
60%
100 à 500
50 à 100
40%
10 à 50
5 à 10
20%
1à5
0à1
Code département
18
16
17
14
15
12
13
9
10
11
8
7
6
5
4
3
2
0%
1
surface (Ha)
1000 à 5000
• Introduction
• I. Analyse de données
• II. Les méthodes de génération de
population
• III. L’application
• Conclusion - Perspectives
II. Les méthodes de génération de population
Principe de la méthode utilisée
• Multiplication des prototypes d’un échantillon
par des coefficients
• Choix optimal de ces coefficients pour respecter
les contraintes des données agrégées
• Besoin d’un algorithme de minimisation des
erreurs
II. Les méthodes de génération de population
Principe de la méthode utilisée
P (pop initiale)
Ferme 1
Ferme 2
Ferme 3
Ferme 4
Ferme 5
Ferme 6
P (données agrégées)
Σ fermes = 8
Ferme 7
Ferme 8
P’ (échantillon)
Prototype 1
Prototype 2
Σ productions = 150
Prototype 3
P’’ (pop générée)
Prototype 1
Prototype 1
Prototype 2
Prototype 2
Prototype 2
Prototype 3
Prototype 3
Prototype 3
II. Les méthodes de génération de population
2 types d’algorithmes
• Algorithme quadratique : pour générer une population à
partir d’un échantillon.
• Algorithme de type Monte Carlo (non analytique) :
pour générer un échantillon à partir d’une population entière
II. Les méthodes de génération de population
Algorithme de minimisation
quadratique
• Formulation du problème
n
K
n
K
k
i
min
(

(
n

a
x
i ) ( (Q ai Qk xi ) ) + …


xi 
k 1
2
k
i
P
k
i 1
k 1
producteurs
P
k
productions
n
Contrainte(s) :
Transformation
i 1
x  N
i
i 1
min (0.5*xt*Q*x+pt*x)
I*x=N
• Pour le programme : Algorithme de « R »
2
II. Les méthodes de génération de population
Algorithmes de type Monte Carlo
• Hill climbing
• recuit simulé (simulated annealing)
P(δE) = exp (-δE / T)
• Algorithme génétique
• …
• Introduction
• I. Analyse de données
• II. Les méthodes de génération de
population
• III. L’application
• Conclusion - Perspectives
III. L’application
Les modules du programme
• Module Population
• Module Statistiques
• Module Minimisation
III. L’application
Diagramme
UML
III. L’application
L’arborescence de répertoires
Honduras
Département 1
Municipalité 100
Municipalité 101
Département 2
Municipalité 124
Village 10001
Village 10023
Village 10095
Info.txt
Prototype.txt
DonnéesAgreg.txt
ProtoGénérés.txt
Département 18
III. L’application
L’interface : onglet population
III. L’application
L’interface : Fenêtre de visualisation de l’arbre
III. L’application
L’interface : onglet Statistiques
III. L’application
Aspects du module Plan
d’expérience
Zone d’exploration
Génération de
population
Génération
d’échantillon
 Région étudiée
Générer
 paramètres à minimiser
 types des données
agrégées (qualitatif/ quantitatif)
seuil d’erreur (pour chaque
paramètre)
Algorithme 1
Algorithme 2
• Introduction
• I. Analyse de données
• II. Les méthodes de génération de
population
• III. L’application
• Conclusion - Perspectives
Conclusion - Perspectives
Conclusion
• Acquisition de nouveaux outils
• Bilan de l’analyse de données
• Bilan de l’application - résultats
Conclusion - Perspectives
Perspectives
• Documentation
• Essais et comparaisons des 2 algorithmes
• Module plan d’expérience
• Module Visualisation (Java Analysis Studio)
• Projet « ouvert »
- Statistiques évoluées (AFC, Clustering)
- ajouts de nouvelles fonctions…
Téléchargement