DESS SIAD année 2001-2002 Génération de population agricole à partir de données agrégées et d’un panel représentatif de fermes. réalisé par Mickaël Bourion au LISC, Cemagref de Clermont Ferrand sous la direction de Thierry Faure 10 septembre 2002 Sommaire • Introduction • I. Analyse de données • II. Les méthodes de génération de population • III. L’application • Conclusion - Perspectives Introduction Le contexte du stage • Le CIAT (Centre International de l’Agriculture Tropicale) • Données de recensement : Confidentielles ! Seuls sont disponibles: - Données agrégées - Echantillons • Nécessité de créer une application générant une population à partir de ces données Introduction Objectifs de l’étude • Développer un outil réalisant la reconstruction de population • Utiliser la population agricole complète du Honduras : - Comme exemple pour l’application - Pour étudier ses caractéristiques - Pour manipuler les méthodes d’agrégation Introduction Spécifications du programme • Outil générique (échelles et paramètres variables) • Opération « inverse » : générer une population à partir d’un échantillon • Programme en sources libres • Localisation en 3 langues • Introduction • I. Analyse de données • II. Les méthodes de génération de population • III. L’application • Conclusion - Perspectives I. Analyse de données Présentation des données • Le Honduras plus de 300 000 exploitations 3 échelles administratives : Honduras Département 1 Municipalité 100 Municipalité 101 Village 10001 Village 10023 Village 10095 Département 2 Municipalité 124 Département 18 I. Analyse de données Présentation des données • 3 matrices de paramètres : - Exploitations (surfaces, usage des terres…) - Producteurs (âge, sexe, condition juridique…) - Productions (quantités et types…) I. Analyse de données Mise en œuvre d’algorithmes avec Scilab • Formatage des données • Agrégations • Corrélations entre paramètres I. Analyse de données Résultats • Agrégations • Corrélations entre paramètres : Données trop disparates Ré partition de s taille s de fe rm e s s e lon de s clas s e s (Ha) par dé parte m e nt 100% 10000 et + 5000 à 10000 80% 500 à 1000 60% 100 à 500 50 à 100 40% 10 à 50 5 à 10 20% 1à5 0à1 Code département 18 16 17 14 15 12 13 9 10 11 8 7 6 5 4 3 2 0% 1 surface (Ha) 1000 à 5000 • Introduction • I. Analyse de données • II. Les méthodes de génération de population • III. L’application • Conclusion - Perspectives II. Les méthodes de génération de population Principe de la méthode utilisée • Multiplication des prototypes d’un échantillon par des coefficients • Choix optimal de ces coefficients pour respecter les contraintes des données agrégées • Besoin d’un algorithme de minimisation des erreurs II. Les méthodes de génération de population Principe de la méthode utilisée P (pop initiale) Ferme 1 Ferme 2 Ferme 3 Ferme 4 Ferme 5 Ferme 6 P (données agrégées) Σ fermes = 8 Ferme 7 Ferme 8 P’ (échantillon) Prototype 1 Prototype 2 Σ productions = 150 Prototype 3 P’’ (pop générée) Prototype 1 Prototype 1 Prototype 2 Prototype 2 Prototype 2 Prototype 3 Prototype 3 Prototype 3 II. Les méthodes de génération de population 2 types d’algorithmes • Algorithme quadratique : pour générer une population à partir d’un échantillon. • Algorithme de type Monte Carlo (non analytique) : pour générer un échantillon à partir d’une population entière II. Les méthodes de génération de population Algorithme de minimisation quadratique • Formulation du problème n K n K k i min ( ( n a x i ) ( (Q ai Qk xi ) ) + … xi k 1 2 k i P k i 1 k 1 producteurs P k productions n Contrainte(s) : Transformation i 1 x N i i 1 min (0.5*xt*Q*x+pt*x) I*x=N • Pour le programme : Algorithme de « R » 2 II. Les méthodes de génération de population Algorithmes de type Monte Carlo • Hill climbing • recuit simulé (simulated annealing) P(δE) = exp (-δE / T) • Algorithme génétique • … • Introduction • I. Analyse de données • II. Les méthodes de génération de population • III. L’application • Conclusion - Perspectives III. L’application Les modules du programme • Module Population • Module Statistiques • Module Minimisation III. L’application Diagramme UML III. L’application L’arborescence de répertoires Honduras Département 1 Municipalité 100 Municipalité 101 Département 2 Municipalité 124 Village 10001 Village 10023 Village 10095 Info.txt Prototype.txt DonnéesAgreg.txt ProtoGénérés.txt Département 18 III. L’application L’interface : onglet population III. L’application L’interface : Fenêtre de visualisation de l’arbre III. L’application L’interface : onglet Statistiques III. L’application Aspects du module Plan d’expérience Zone d’exploration Génération de population Génération d’échantillon Région étudiée Générer paramètres à minimiser types des données agrégées (qualitatif/ quantitatif) seuil d’erreur (pour chaque paramètre) Algorithme 1 Algorithme 2 • Introduction • I. Analyse de données • II. Les méthodes de génération de population • III. L’application • Conclusion - Perspectives Conclusion - Perspectives Conclusion • Acquisition de nouveaux outils • Bilan de l’analyse de données • Bilan de l’application - résultats Conclusion - Perspectives Perspectives • Documentation • Essais et comparaisons des 2 algorithmes • Module plan d’expérience • Module Visualisation (Java Analysis Studio) • Projet « ouvert » - Statistiques évoluées (AFC, Clustering) - ajouts de nouvelles fonctions…