Approches génétiques pour la pondération automatique d'attributs en classification non supervisée d'objets complexes Pierre Gançarski Alexandre Blansché Approches génétiques, clustering et sélection d'attributs ➢ Problèmes ➢ Attributs fortement corrélés, bruités et non pertinents FDC 06 - 17 Janvier 2006 2 Approches génétiques, clustering et sélection d'attributs Images hyperspectrales Bande 1 Bande 41 Bande 14 Bande 43 Bande 15 Bande 64 FDC 06 - 17 Janvier 2006 Bande 26 Bande 73 Bande 79 3 Approches génétiques, clustering et sélection d'attributs Image radiométrique Classification pixel Construction des régions Classification ? des objets FDC 06 - 17 Janvier 2006 4 Approches génétiques, clustering et sélection d'attributs ➢ Problèmes ➢ ➢ Attributs fortement corrélés, bruités et non pertinents Attributs réellement discriminants pour chaque classe : ● L'importance d'un attribut dépend de la classe que l'on cherche à mettre en évidence : texture pour le bâti, radiométrie pour l'eau, ... FDC 06 - 17 Janvier 2006 5 Approches génétiques, clustering et sélection d'attributs ➢ Problèmes ➢ ➢ Attributs fortement corrélés, bruités et non pertinents Attributs réellement discriminant pour chaque classe : ● L'importance d'un attribut dépend de la classe que l'on cherche à mettre en évidence : texture pour le bati, radiométrie pour l'eau, ... ➔ Pondération locale des attributs FDC 06 - 17 Janvier 2006 6 Approches génétiques, clustering et sélection d'attributs ➢ Notre approche ➢ Hard clustering et optimisation d'une fonction de coût basée sur une distance FDC 06 - 17 Janvier 2006 7 Optimisation basée distance ➢ Weighting Kmeans (E. Chan, W. Ching, M. Ng, and J. Huang, “An optimizationalgorithm for clustering using weighted dissimilarity measures,” Pattern Recognition, vol. 37, pp. 943–952, 2004.) ➢ Idée : optimiser une fonction de coût K WCost c , W = ∑ n ∑ ∑ Ck o w k =1 o ∈ S i= 1 c = {c k }k∈[1 ,K ] W ={w k , i }i ∈[ 1, n ] , k ∈[1 ,K ] b k ,i di o ,c k Les deux inconnus FDC 06 - 17 Janvier 2006 8 Weigthing K-means ➢ L'optimisation se fait “à la K-means” : 1) Affectation des objets aux centres (utilisation d'une distance pondérée par W) 2) Calcul des nouveaux centres 3) Calcul des nouveaux poids : w k , i= { 1/ zk i 0 n 1/ ∑ t= 1 [] i k t k s s sik=0 si i ∣ si s k≠0 et zk ≠0 1 /b− 1 si zk=0 FDC 06 - 17 Janvier 2006 avec sk = ∑ Ck o d i c k ,o i 2 o∈S zk =∣{t ∣ s =0 }∣ t k 9 Optimisation par évolution génétique ➢ Deux dimensions ➢ Stratégies d'évolution ● ● ● ➢ Darwinienne Lamarckienne Baldwinienne Populations ● ● Une seule : « évolution classique » Plusieurs : co-évolution FDC 06 - 17 Janvier 2006 10 Stratégies d'évolution ➢ Darwin ➢ (approche la plus utilisée) Principe : ● ● ● Les individus s'adaptent à leur environnement Ces adaptations sont « sous contrôle » des gènes La descendance qui présente la meilleure adaptation survit et se reproduit : «survival of the fittest » FDC 06 - 17 Janvier 2006 11 Stratégies d'évolution ➢ Darwin ➢ Principe : ● ● ● ➢ Les individus s'adaptent à leur environnement Ces adaptations sont « sous contrôle » des gènes La descendance qui présente la meilleure adaptation survit et se reproduit : «survival of the fittest » Traduit par : ● ● ● A chaque génération, les partir des chromosomes Chaque solution (chaque Les meilleurs individus matériel génétique est génération suivante solutions sont calculées à individu) est évaluée sont sélectionnés et leur recombiné pour former la FDC 06 - 17 Janvier 2006 12 Stratégies d'évolution ➢ Lamarck ➢ (approche incorrecte dans la réalité) Principe : ● ● ● Les individus s'adaptent à leur environnement Ces adaptations influent sur les gènes La descendance qui présente la meilleure adaptation survit et se reproduit à partir de ces nouveaux gènes : «inheritance of acquired characteristics » FDC 06 - 17 Janvier 2006 13 Stratégies d'évolution ➢ Lamarck ➢ Principe : ● ● ● ➢ Les individus s'adaptent à leur environnement Ces adaptations influent sur les gènes La descendance qui présente la meilleure adaptation survit et se reproduit à partir de ces nouveaux gènes : «inheritance of acquired characteristics » Traduit par : ● ● ● A chaque génération, les solutions sont calculées à partir des chromosomes : le calcul d'une solution modifie le chromosome associé (lifetime learning méthod) Chaque solution (chaque individu) est évaluée Les meilleurs individus sont sélectionnés et leur nouveau matériel génétique est recombiné FDC 06 - 17 Janvier 2006 14 Stratégies d'évolution ➢ Baldwin ➢ Principe : ● ● ● Les individus s'adaptent à leur environnement Ces adaptations dépendent des gènes et de la « phenotypic plasticity » qui décrit la capacité à s'adapter La descendance qui présente la meilleure capacité à s'adapter survit et se reproduit (comme pour Darwin) FDC 06 - 17 Janvier 2006 15 Stratégies d'évolution ➢ Baldwin ➢ Principe : ● ● ● ➢ Les individus s'adaptent à leur environnement Ces adaptations dépend des gènes et de la « phenotypic plasticity » qui décrit la capacité à s'adapter La descendance qui présente la meilleure adaptation survit et se reproduit (comem pour Darwin) Traduit par : ● ● ● A chaque génération, les solutions sont calculées à partir des chromosomes : le calcul d'une solution modifie l'individu SANS modifier ses gènes Chaque solution (chaque individu) est évaluée Les meilleurs individus sont sélectionnés et leur (ancien) matériel génétique est recombiné FDC 06 - 17 Janvier 2006 16 Stratégies d'évolution ➢ Evolution ➢ ➢ ➢ Une seule population Chaque individu est apte à construire une solution globale qui peut être évaluée Chaque chromosme porte tous les gènes nécessaires au calcul d'une solution globale ● Exemple : un chromosome = ensemble des pondérations pour toutes les classes. FDC 06 - 17 Janvier 2006 17 Optimisation par évolution génétique ➢ Stratégies d'évolution ● ● ● ➢ Darwinienne Lamarckienne Baldwinienne Populations ● évolution FDC 06 - 17 Janvier 2006 18 Approche évolutive darwinienne ➢ Chaque individu calcule une solution à l'aide d'un K-means ● ● ➢ Les individus sont évalués en utilisant le fonction Wcost : ● ● ➢ ➢ initialisé avec la meilleure solution courante et en utilisant la pondération donnée par son chromosome initialisé avec la solution trouvée et en utilisant le chromosome la meilleure solution est conservée Une reproduction « classique » est faite FDC 06 - 17 Janvier 2006 19 Optimisation par évolution génétique ➢ Stratégies d'évolution ● ● ● ➢ Darwinienne Lamarckienne Baldwinienne Populations ● évolution FDC 06 - 17 Janvier 2006 20 Approche évolutive lamarckienne ➢ Chaque individu calcule une solution à l'aide d'un Weighting-Kmeans ● ● ➢ initialisé avec la meilleure solution courante et en utilisant en pondération initiale celle donnée par son chromosome Les nouveaux poids sont affectés au chromosome de l'individu FDC 06 - 17 Janvier 2006 21 Approche évolutive lamarckienne ➢ Chaque individu calcule une solution à l'aide d'un Weighting-Kmeans ➢ Les nouveaux poids sont affectés au chromosome de l'individu ➢ Les individus sont évalués par Wcost : ● ● ➢ ➢ initialisé avec la solution trouvée et en utilisant le nouveau chromosome la meilleure solution est conservée Une reproduction « classique » est faite avec le nouveau matériel génétique FDC 06 - 17 Janvier 2006 22 Optimisation par évolution génétique ➢ Stratégies d'évolution ● ● ● ➢ Darwinienne Lamarckienne Baldwinienne Populations ● évolution FDC 06 - 17 Janvier 2006 23 Approche évolutive baldwinienne Identique à Lamarck ➢ Chaque individu calcule une solution à l'aide d'un Weighting-Kmeans ● ● ➢ initialisé avec la meilleure solution courante et en utilisant en pondération intiale celle donnée par son chromosome Les nouveaux poids NE sont PAS affectés au chromosome de l'individu FDC 06 - 17 Janvier 2006 24 Approche évolutive baldwinienne ➢ Chaque individu calcule une solution à l'aide d'un Weighting-Kmeans ➢ Les nouveaux poids ne sont pas affectés au chromosome de l'individu ➢ Les individus sont évalués par Wcost : ● ● ➢ ➢ initialisé avec la solution trouvée et en utilisant le nouveau chromosome la meilleure solution est conservée Une reproduction « classique » est faite à partir des chromosomes initiaux FDC 06 - 17 Janvier 2006 25 Résultats des approches évolutives ➢ Données : Iris et Balance-scale ➢ ➢ ➢ Deux critères de qualité ➢ ➢ ➢ Iris : 4 attributs, 150 objets 3 classes Balance scale : 4 attributs numériques, 3 classes , 768 objets (46,1%; 7,8%; 46,1%) Évaluation de la fonction de coût Comparaison avec la vérité-terrain (accuracy) Moyenne sur 100 tests ➢ ➢ 60 individus 100 générations au maximum FDC 06 - 17 Janvier 2006 26 Résultats des approches évolutives IRIS : données brutes FDC 06 - 17 Janvier 2006 27 Résultats des approches évolutives Balance scale : données brutes FDC 06 - 17 Janvier 2006 28 Résultats des approches évolutives Balance scale : données normalisées FDC 06 - 17 Janvier 2006 29 Résultats des approches évolutives – IRIS : données brutes FDC 06 - 17 Janvier 2006 30 Résultats des approches évolutives – IRIS : données normalisées FDC 06 - 17 Janvier 2006 31 Résultats des approches évolutives – Balance scale : données brutes FDC 06 - 17 Janvier 2006 32 Résultats des approches évolutives – Balance scale : données normalisées FDC 06 - 17 Janvier 2006 33 Conclusion Les méthodes génétiques semblent plus efficaces que les optimisations par hillclimbing ➢ De nombreuses perspectives : ➢ ➢ ➢ ➢ Utilisation de statégies de coévolution Estimation de la qualité de classification sans utiliser de distance Plusieurs sources de données ● ● Images à des résolutions différentes ou à des moments différents Images de natures différentes FDC 06 - 17 Janvier 2006 34 Approches génétiques, clustering et sélection d'attributs Merci de votre attention FDC 06 - 17 Janvier 2006 35