Extraction de Connaissances à partir de Données (KDD*) Mots clés : Fouille de données, entrepôt de données, analyse de données, classification, apprentissage Nédra Mellouli-Nauwynck [email protected] * Knowledge Discovery in Data Bases (KDD) and data Mining (DM) Introduction KDD - La démarche Décision •Promouvoir le produit P dans la région R durant la période N •Réaliser un mailing sur le produit P aux familles du profil F Connaissance •Une quantité Q du produit P est vendue en région R •Les familles de profil F utilisent M% de P durant la période N Information •X habite la région R •Y a A ans •Z dépense son argent dans la ville V de la région R Données •Consommateurs •Magasins •Ventes •Démographie •Géographie Introduction Le processus de KDD Données Pré-traitementpré-traitées et nettoyage Databases Datawarehouse DataMart Web Données cibles visualisation Motifs / Modèles Données transformées Introduction Quelques définitions Extraction d’informations originales, auparavant inconnues, potentiellement utiles à partir de données. « Frawley & PiateskiShapiro » La découverte de nouvelles corrélations, tendances et modèles par le tamisage d’un large volumes de données. « John Page » Un processus d’aide à la décision où les utilisateurs cherchent des modèles d’interprétation dans les données. « Parsaye » Torturer l’information jusqu’à ce qu’elle avoue. « Dimitris et al. » Découverte de connaissances dans les bases de données (KDD) Connaissances : un ensemble de relations entre les données Introduction À retenir…Data Mining ou KDD Besoin de retrouver toutes les informations associées à un sujet donné, par exemple un consommateur, un vendeur, un produit ou une activité. Extraire des connaissances des « grandes BD » historisées, en dégageant des tendances de fond et les règles de l’entreprise et du marché. 1 source de données n sources de données extraction extraction 1 utilisateur n utilisateurs Introduction Data Warehouse Entrepôt de données est une collection de données structurées englobant les informations en provenance des différents systèmes opérationnels Propriétés des données Intégrées Non volatiles (permanentes) Historisées Orientées sujet Organisées Pour le système décisionnel Introduction Exploitation d’un Data Warehouse Les outils d’exploitation d’un data Warehouse peuvent être classés en deux catégories: Outils d’aide à la décision permettant d ’interroger et d’analyser l’évolution des données Outils de DM permettant de comprendre les relations entre les données (problème très ouvert) afin de déterminer des modèles implicites, et de remonter de l’information non prévisible à l’utilisateur. Structure du cours Première partie : Description de la démarche détaillée du processus du DM avec une décomposition en huit étapes successives. Description d’un processus d’analyse des données Deuxième partie : Enumération de quelques techniques de DM avec un rappel de quelques notions de bases en statistiques Etude de certains logiciels Etude d’un cas Perspectives de développement et de recherche Intégration de données hétérogènes pour le pré-traitement Structure du cours Première partie : Description détaillée de la démarche du processus du DM avec une décomposition en huit étapes successives. Description d’un processus d’analyse des données Deuxième partie : Enumération de quelques techniques de DM avec un rappel de quelques notions de bases en statistiques Etude de certains logiciels Etude d’un cas Perspectives de développement et de recherche Identification de profils de clients et organisation d’une campagne de Marketing direct Un voyagiste organise des circuits touristiques et offrent cinq types de prestations qui sont notés par A, B, C, D, E. Le directeur marketing souhaite mettre en place une option de fidélisation. En effet, la politique de fidélisation se comprend comme le souhait de vendre aux clients existants de nouvelles prestations. C’est donc de transformer des monodétenteurs de produits en multidétenteurs. II. Processus du Data Mining : différentes phases • • • • • • • • Phase Phase Phase Phase Phase Phase Phase Phase 1 2 3 4 5 6 7 8 de compréhension du problème de recherche des données de sélection des données pertinentes de nettoyage des données des actions sur les variables de recherche de modèles d’évaluation des résultats d’intégration de la connaissance Phase 1 de compréhension du problème Recueillir les « intuitions » et la connaissance des experts pour identifier les variables les plus pertinentes susceptibles d’expliquer les phénomènes analysés Formuler le problème Définir les objectifs Les résultats attendus Les moyens d’évaluation des résultats en fin du processus de DM Phase 1: comment faire? … Formuler le problème Décomposer le problème complexe en sous-problèmes de complexité moindre et collecter les données nécessaires au traitement de chacun des sous-problèmes Typologie du problème Problème d’affectation Classification des objets en sous-ensembles homogènes. Cela suppose la connaissance des classes. Il s’agit d’identifier les facteurs d’affectation Problème de structuration Mise en évidence des classes ou des facteurs de différentiation. Il s’agit d’identifier les facteurs de structuration. Résultats attendus Une démarche d’analyse critique des moyens d’exploitation de résultats Typologie des clients la politique de fidélisation se comprend comme le souhait de vendre aux clients existants de nouvelles prestations. C’est donc de transformer des monodétenteurs de produits en multidétenteurs. Proposition de plusieurs produits différents clients monodétenteurs hétérogènes comprendre la répartition actuelle avant toute vente de nouveaux produits Problématique de structuration des clients Qui sont mes clients? Nombre de clients, les types de produits achetés,etc. Problématique d’affectation Quels sont les clients à cibler? taux des multidétenteurs, volume de chiffres d’affaires,etc. Objectifs Mieux identifier les clients afin de réviser les offres et la politique marketing Fournir au corps marketing une liste ciblée de clients Phase 2 de recherche des données fichiers supports électroniques Documents papiers préparer les données d’entrée, en particulier trouver les sources, collecter, nettoyer, transformer et intégrer les données. Déterminer la structure générale des données, les règles utilisées pour les constituer. • Sélection des données – Déterminer les attributs les plus représentatifs – Déterminer les variables influentes – Contexte du problème étudié et représentation Phase 2 de recherche des données: comment faire? … Total des données collectées Mr l’expert vs Système expert Lister les éléments qui sont, selon lui importants (pas d’organisation du processus d’analyse de l’expert) Absence de l’expert Remplacer par des techniques d’analyse telles les réseaux de neurones, les régressions Extraire la sémantique des données, identifier des groupes fréquents de données, des valeurs seuils, des valeurs aberrantes afin de réduire la dimension du problème en isolant les variables pertinentes. Réduction des données collectées Réduction des données collectées Création de méthodes de classification des variables Observation de corrélations entre certaines données Réduction arbitraire -- Exemples ++ Configuration optimale Attention temps de calcul Attention Peu d’exemples stabilité -- variables ++ Collecte des données liées aux clients, aux produits et aux achats Réunion de travail avec les responsables des produits Responsable marketing Caractériser le comportement du client Informations sur le client Sexe,âge,situation matrimoniale,nb d’enfants à charges, catégorie socioprofessionnelle,nb d’années anciennetés,… Informations sur les types de produits achetés Produit A avec la date du 1er. Achat Produit B // // … Informations comptables Montant des achats par produit Date du dernier achat, type de payement Statut financier du client (bon,moyen,mauvais) Informations collectées par questionnaires et enquêtes Centre d’intérêts Informations géographiques Code de la commune, taille de la commune,type d’habitat,etc. Phase 3 de sélection des données pertinentes Pour ou contre l’échantillonnage, les avis sont assez partagés. Il est vain d’essayer de traiter entièrement les grosses bases de données. Il semble judicieux de mettre en œuvre des schémas de tirage qui permettent d’assurer de la prise en compte de la plupart des structures qui régissent les observations Échantillonnage Représentation de la population, dans quel cas c’est avec un tirage aléatoire stratification de la population, et mieux représenter une sous population (20% des clients contribuent à 80% du chiffre d’affaires) Phase 3 : exemple(suite) Si le client n’a effectué aucun achat sur les 3 dernières années, alors pas d’extraction Si le client a acheté pour plus de 30 000F, on tire aléatoirement 1 exemple parmi 4 (40%) Sinon, on tire aléatoirement un exemple sur 10 (10%) Obtention d’un échantillon représentatif pour l’enjeux Marketing Phase 4 de nettoyage des données Selon les moyens d’acquisition des données Manuels : plus la quantité de données à saisir est importante plus l’erreur sur les données est probable Automatisés : mettre des dispositifs de vérification de la cohérence des données. Le cas des capteurs, comment faire? Mixtes : détection des incohérence est plus complexe Les valeurs aberrantes Réparer les données Valeurs contradictoires Tenir compte de la non-qualité Dates impossibles des données Les valeurs manquantes Réduction considérable du Des sauts de lignes ou de colonnes Des valeurs inconnues à l’origine nombre de variables Les valeurs nulles Distinguer entre une vraie valeur nulle et une fausse Une valeur nulle : valeur inconnue, oubliée ou réellement zéro. Phase 5 des actions sur les variables La transformation monovariable Modification des unités de mesures Transformation des dates en durées La transformation multivariable Les ratios Les fréquences Les tendances Les combinaisons linéaires et non linéaires Normalisation des valeurs Phase 5 : exemple (suite) Croisement de la variable Age et date du premier achat => l’âge du client au premier achat Croisement de la date du premier achat avec la date du dernier => une durée de vie du client dans la compagnie Croisement des variables type d’habitat et taille de la commune permet de caractériser le style d’habitat Petite ville & individuelle => rural Grande ville & individuel => banlieue chic Grande ville & collectif => forte concentration Exemples d’actions sur les variables Chiffre log d’affaires Achat en Achat en fréquence période période 1 2 Exemple 1 23 3.145 oui non 50% Exemple 2 123 4.812 non non 0% Exemple 3 2345 7.760 oui oui 100% Phase 6 de recherche de modèles L’apprentissage Apprentissage supervisé vs. non supervisé L’automatisme et interaction Interaction entre algorithme d’apprentissage et l’humain Les algorithmes de calculs Les modèles d’équations et de projections Issus des modèles statistiques : régression linéaire, logistique analyse discriminante Réseaux de neurones L’analyse logique Logique inductive, abductive, déductive Généralisation, spécialisation, validation Le canard vole, Le pigeon vole, tous les oiseaux volent Le moineau vole Tous les oiseaux volent, Titi vole titi est un oiseau Tous les oiseaux volent, Titi est un oiseau titi est un oiseau Phase 6 : recherche des modèles de ventes Age Détention Chiffre d’affaires Déterminer la typologie des clients Un grand nombre de voyages achetés Clients jeunes Gros chiffre d’affaires 3% Clients midle-âges chiffre d’affaires petit 6% Un faible nombre de voyages achetés Clients jeunes chiffre d’affaires moyen 20% Clients âgés chiffre d’affaires moyen 4% Clients jeunes chiffre d’affaires petit 22% Clients midle-âges chiffre d’affaires important 5% Clients très âgés chiffre d’affaires important 21% Phase 7 d’évaluation des résultats Une évaluation qualitative Visualisations Graphiques et/ou textuelle Une évaluation quantitative Notion d’intervalle de confiance Un intervalle déterminant une certaine précision Notion de validation par le test Phase 8 d’intégration de la connaissance Prise de décision à partir des connaissances extraites À partir des connaissances vers la décision Définition des actions De la décision vers l’action Intégration du processus de mining dans le système informatique fonctionnel. Conclusion il existe de nombreuses (autres) méthodes il n’y a pas de meilleure méthode méthode à choisir selon les données (continues ? manquantes ? volumineuses ? denses ? ...) la tâche le temps de calcul dont on dispose règle du rasoir d’Ockham : « pluralitas non est ponenda sine neccessitate » « Les choses essentielles ne doivent pas être multipliées sans nécessité » autres types de données IV. Les bases de l’analyse des données • • • • La La La La notion de similarité notion de distance notion d’association notion de probabilité et d’arbre de décision Représentation des données et types des variables Table de décision Exemples Attributs décision Age Sexe antécédents Analyse de l’examen Patient 1 56 f oui positif malade Patient 2 45 f non positif malade Patient 3 60 m oui négatif ? Disjonctive, catégorique (ordonnées, non ordonnées), continues Les bases de l’analyse La notion de similarité Voiture Diligence calèche Présence de roues Oui Oui oui Présence d’un plancher Oui Oui oui Présence de portes Oui Oui non Présence de moteur Oui Non non Présence d’un toit Oui Oui non calèche voiture diligence oui non 4 1 non 0 0 oui 2 0 non 2 1 oui Coïncidences positives =1 Coïncidences négative =0 Indice de similarité [0,1] (Russel, Jaccard, Sokal) Cp/C ; Cp/C-Cn ; Cp+Cn/C Les bases de l’analyse La notion de similarité : suite S(A,B)=1 si A et B représentent les mêmes caractéristiques et 0 sinon Zone idéale Zone A Zone B Zone C Prix de location (1) 500 DT 400 DT 1000 DT 1200 DT Distance % travail (2) 40 mn 60 mn 120 mn 50 mn Garderie (3) oui non oui non Qualité (4) calme chaude animée calme NB de critères (4) Etude de l’étendue -variable Prix de location Prix =Max-Min Similarité S(I,A) =S(I,A)(i)/NB S(I,A)(i)=1-[|PrixA-PrixI|/ Prix] A calculer…. Les bases de l’analyse La notion de distance Distance (A,B)= 1-similarité(A,B) Distance(Idéale,A) Distance(Idéale,B) … Plus la similarité est importante plus les objets sont proches Plus les points sont proches plus les individus sont similaires Les bases de l’analyse Choix de la distance d(A,A) = 0 Rappel : distance d d(A,B) = d(B,A) d(A,C) d(A,B) + d(B,C) Distance sur chaque variable d(x,y) = |x-y| d(x,y) = |x-y| / distance_max Distance agrégée. d(x,y) = distance euclidienne : [d (x ,y ) 1 1 1 2 +...+ dn(xn,yn)2] Les bases de l’analyse Les techniques de classification Distance et classification hiérarchique Design Facile Produit A 1 1 Produit B 1 2 Produit C 3 Facile 3 B 2 4 4 D A 1 Produit D Correspondance des points C 4 2 1 A B C A - 1 13½ 10½ B 1 - 8½ C D 2 Design 4 AB C AB - 13½ 10½ 3 C 13½ - 5½ 13½ 8½ - 5½ D 10½ 5½ - 10½ 3 - 5½ D 3 D Max(D(A,X), D(B,X)) D(AB,X)= ou Min(D(A,X), D(B,X)) A calculer … Les bases de l’analyse Les techniques de classification : suite Variance (notion de prédiction) Moyenne Ecart Type par rapport à la moyenne Ecart au carré des écarts au carré Division par le nombre d’observations Coefficient de variation Ecart type / Moyenne Plus la surface est importante plus la distribution s’éloigne de la moyenne Exemple Econo STAT E1 3 7 E2 4 8 E3 6 9 E4 11 11 E5 16 13 E6 18 14 E7 19 15 11 11 Découper la population sur la note de Stat qui présente la plus forte variance Créer un 1 groupe avec note <11 Créer un 2 groupe avec note >= 11 A calculer … La notion d’association Corrélation Régression Association sur des variables qualitatives 2 V. Les techniques de Data Mining • • • • • • • • • • Introduction Le raisonnement par Analogie : raisonnement à partir des cas Les agents intelligents Les associations Les arbres de décision Les algorithmes génétiques Les réseaux bayesiens Les réseaux de neurones Les outils de visualisation Les systèmes à base de connaissances Apprentissage supervisé Méthode de Bayes naïf Comment classer un nouvel exemple en fonction d’un ensemble d’exemples pour lesquels on connaît la classe ? Soit un exemple d = (d1, ..., dn) et c classes k = 1, ..., c Classe(d) = argmax P P(di|k) . P(k) ^ k i proportion d’exemples di parmi ceux de la classe k proportion d’exemples de la classe k ^ Exemple : va-t-on jouer au tennis ? TEMPS HUMIDITE VENT TENNIS Ex1 Soleil Haute Oui Oui Ex2 Soleil Basse Non Non Ex3 nuageux Basse Oui Oui Ex4 pluvieux Haute Oui Non Ex5 pluvieux Basse Oui Non Ex6 Soleil Basse Oui Oui Ex7 pluvieux Basse Non Non Soleil haute Non ? Va-t-on jouer s’il y a du soleil, beaucoup d’humidité et pas de vent ? Apprentissage supervisé k plus proches voisins Raisonnement à partir de cas Utilisation des cas similaires pour prendre une décision Pas d’étape d’apprentissage (avantages et inconvénients) Algorithme Décider du nombre de voisins à utiliser k (souvent k = nbre d’attributs + 1) Pour un enregistrement sur lequel il faut décider : trouver les k plus proches voisins combiner les classes des k plus proches voisins en une classe c Choix de la classe on dispose des k classes des k plus proches voisins choix de la classe du nouvel exemple : classe majoritaire classe pondérée Le résultat change en fonction de tous ces choix (distance, combinaison, calcul de la classe) Exemple : va-t-on jouer au tennis avec cette méthode ? on choisit k = 4 distance euclidienne d(A,A)=0 d(A,B)=1 calcul des voisins combinaison des classes des voisins Apprentissage supervisé Arbres de décision Représentation graphique d’une procédure de décision Représentation compréhensive règles fièvre forte normale malade toux oui non malade non malade feuille Classes nœud Attributs arc Tests sur les attributs Problématiques associées Choix des attributs tests (divisions successives de la base d’apprentissage) Critère d’arrêt But : construire un arbre le plus petit possible Heuristique. Algorithme glouton. Plusieurs algorithmes (ID3, C4.5) Algorithme de construction Nœud Courant racine Répéter Si le nœud courant est terminal Alors l’étiqueter Nœud Courant Classe Sinon Sélectionner un attribut test Créer le sous-arbre Passer au nœud suivant non exploré Jusqu’à obtention d’un arbre Critère d’arrêt Plusieurs tests possibles pour décider si le nœud courant est terminal : il n’y a plus assez d’exemples les exemples ne sont pas trop mélangés (une classe se dégage). seuil d’impureté. On étiquette avec la classe majoritaire Sélection de l’attribut test Quel est l’attribut dont la connaissance nous aide le plus sur la classe ? Plusieurs critères possibles : test de Gini, gain d’information, entropie, ... ID3 : entropie de Shannon Hs(C|A) = - P(Xi) P(Ck|Xi). log((P(Ck|Xi))) i k Exemple : va-t-on jouer au tennis avec cette méthode ? Construction de l’arbre Racine : choix du 1er attribut test Calcul de H(C|temps) Calcul de H(C|humidité) Calcul de H(C|vent) Division de la base d’exemple Nœuds terminaux ? Attributs continus ID3 ne les prend pas en charge discrétisation par un expert algorithme C4.5 : test et calcul de l’entropie avec toutes les coupures possibles entre les valeurs successives exemple sur les valeurs 3,4,8 on testera < 3,5 vs. > 3,5 < 6 vs. > 6 Avantages et inconvénients attention au sur-apprentissage élagage performances moins bonnes si beaucoup de classes algorithme non incrémental on peut expliquer une décision permet la sélection des attributs pertinents (feature selection) classification rapide d’un nouvel exemple (parcours d’arbre) Apprentissage supervisé Réseaux de neurones Méthode de type boîte noire Nombreuses applications (notamment reconnaissance d’écriture manuscrite) Méthode coûteuse en temps de calcul Topologie à connaître Une méthode issue des modèles biologiques • Chaque neurone disposer en moyenne de 10.000 points de contacts (synapses) avec les neurones qui l'entourent, et jusqu’à 50.000 ! • Nous disposons de quelques dizaines de milliards de ces neurones à l'intérieur de notre cerveau • De synapse en synapse, l'information transite dans la totalité de notre corps, au travers d'environ 500 000 milliards de synapses Problèmes linéairement ou non linéairement séparables on distingue 2 types de problèmes pour 2 types de solution OU x1 x2 OU XOR 0 0 0 0 0 1 1 1 1 0 1 1 1 1 1 0 XOR 1 1 1 0 0 1 0 1 perceptron perceptron multi-couches Approche informatique : perceptron ENTREES PLUSIEURS CLASSES POIDS SORTIE SOMMATION FONCTION SEUIL Perceptron multi-couches COUCHE D’ENTREE COUCHE DE SORTIE COUCHE CACHEE Algorithme d’apprentissage des poids Initialiser les poids de manière aléatoire Répéter Pour chaque exemple i Si la sortie s n’est pas égale à la sortie attendue a Alors poids wi wi + (a - s)xi Jusqu’à ce que tous les exemples soient bien classés =1 Exemple : apprentissage duX OU logique 0 x1 x2 w1 w0 x1 x2 w2 Source : « Apprentissage à partir d'exemples », F. Denis, R. Gilleron Apprentissage non supervisé Segmentation (Clustering) But : diviser la population en groupes Maximiser la similarité intra-groupe Maximiser la dissimilarité inter-groupes Exemple : notes d’étudiants note s note s 25,00 00 20,00 00 00 reseaux 00 15,00 10,00 00 5,00 00 0,00 0,00 5,00 0,00 10,00 BD 5,00 15,00 10,00 BD 20,00 15,00 20,00 Algorithme des k-moyennes 1. 2. 3. Choisir le nombre de groupes à créer k Choisir k centres initiaux c1, .., ck Pour chaque exemple, l’affecter au groupe i dont le centre est le plus proche 4. Si aucun exemple ne change de groupe 5. Alors STOP 6. Sinon a) Calculer les nouveaux centres : Pour i = 1 à k ci est la moyenne des éléments du groupe b) Aller en 2) Exemple : faire 2 groupes d’étudiants • Centres initiaux : c1=(11,13) c2=(14,18) e1 e2 e3 e4 e5 • d(e1,c1)= [(14-11)2 + (14-13)2]1/2= 3.16 • d(e1,c2) = [(14-14)2 + (14-18)2]1/2 4 • d(e2,c1)= 4.12 d(e2,c2) 2.24 14 12 16 10 14 14 17 20 11 16 • d(e3,c1) > d(e3,c2) e3 • d(e4,c1) < d(e4,c2) • d(e5,c1) > d(e5,c2) • Nouveaux centres : e2 e5 • c’1 = ((14+10)/2,(14+11)/2) = (12,12.5) • c’2 = ((12+16+14)/3),(17+20+16)/3)=(14,17.6) e1 • calcul de d(e1,c’1) d(e1,c’2) … • résultat inchangé FIN e4 10 Problèmes Nécessité de l’existence d’une distance Choix de k Influence du choix des centres initiaux sur le résultat Normalisation des attributs Petit rappel de l’épisode précédent ... Quelles règles d’association construit-on sur cet exemple (support minimum = 3) ? TEMPS HUMIDITE VENT TENNIS Ex1 Soleil Haute Oui Oui Ex2 Soleil Basse Non Non Ex3 nuageux Basse Oui Oui Ex4 pluvieux Haute Oui Non Ex5 pluvieux Basse Oui Non Ex6 Soleil Basse Oui Oui Ex7 pluvieux Basse Non Non Evaluation des méthodes Apprentissage supervisé : évaluation sur une base d’exemples test Méthodes de séparation entre les bases d’apprentissage et de test. on dispose de deux bases séparées on coupe la base en deux validation croisée. Leave One Out. Critères d’évaluation Taux de bon apprentissage Parmi tous les exemples, quelle proportion est bien classée ? Précision de la classe k Parmi les exemples classés dans la classe k, quelle proportion est effectivement de la classe k ? Rappel de la classe k Parmi les exemples de la classe k, quelle proportion se retrouvent classés dans la classe k ? Précision contre Rappel Matrice de confusion : table de contingence Matrice de coûts Prédit OBSERVE Retardé Payé Impayé TOTAL 80 15 5 100 Retardé 1 17 2 20 Impayé 5 2 23 30 TOTAL 86 34 30 150 Payé • Validité du modèle (taux d’apprentissage) : nombre de cas exacts (=somme de la diagonale) divisé par le nombre total : 120/150 = 0.8 • Rappel de la classe Payé : nombre de cas prédits et observés « payé » divisé par le nombre total de cas observés « payés » : 80/86 = 0.93 • Précision de la classe Payé : nombre de cas observés et prédits « payé » divisé par le nombre total de cas prédits « payés » : 80/100 = 0.8 Algorithmes génétiques Simuler l’évolution en imitant la sélection naturelle (Darwin) Codage du problème sous forme binaire (chromosome) Croisements Mutations (la probabilité doit être faible) Sélection Fonctionnement général Sélection POPULATION Remplacement DESCENDANTS PARENTS Recombinaison (Croisement) Mutation Exemple : découvrir la bonne combinaison ... boîte à n interrupteurs ON ON ON ON ON voltmètre OFF OFF OFF OFF OFF but : trouver la position optimale parcours impossible : 5 5 interrupteurs 2 =32 combinaisons 32 interrupteurs 232= 4 294 296 combinaisons possibles ! (584 942 siècles avec 1 test/ms) Utilisation des AG Déroulement de l’AG population initiale de 5 individus (hasard) <10010><11000><00010><01101><10001> test des sorties : 5832, 13824, 8, 2197, 4913 on tue 20% de moins adapté : <00010> on croise (hasard sur les individus et l’endroit) <10010> avec <11000> ; <01101> avec <10001> on se retrouve avec parents + enfants : <10010><11000><01101><10001> <10000><11010><01001><10101> Déroulement ... suite Mutation : <10101> <10111> Sélection : nouvelle population <11010><11000><10111><10010><10000> 17576 13824 12167 5832 4096 Optimisation : recherche de l’extremum de la fonction f(x)=x3 pour un nombre compris entre 0 et 31 (codage sur 5 bits) Comment s’arrêter ? nombre d’itérations stagnation Traitement des données manquantes Attention à la sémantique : La donnée peut-elle exister ? Plusieurs méthodes : les oublier les remplacer : valeurs majoritaire valeur moyenne ... Références. Bibliographie Livres : Introduction au Data Mining. M.Jambu. Eyrolles. 1998. Data Mining: Concepts and Techniques. J. Han and M. Kamber, The Morgan Kaufmann Series in Data Management Systems, 2000. Sites internet : KD Nuggets Logiciels : Intelligent Miner (www.ibm.com), Entreprise Miner (SAS Institute), MineSet (Silicon Graphics Inc.), Clementine (Integral Solutions Ltd, racheté par SPSS), DBMiner (www.dbminer.com), weka