ESILV 30/06/2006 Fouille de données multimédia Michel Crucianu http://cedric.cnam.fr/~crucianm/ 30 juin 2006 ESILV 1 Contenu de la séance Qu’est-ce que la fouille de données ? Quelles méthodes pour la fouille de données ? Qu’est-ce que la fouille de données multimédia ? 3 exemples illustratifs Représentation du contenu multimédia Description du contenu Identification de « composantes » Spécificités de la fouille de données multimédia Quelles relations entre quelles représentations ? Malédiction de la dimension (curse of dimensionality) Accès à de très grands volumes de données Conclusion 30 juin 2006 M. Crucianu ESILV 2 1 ESILV 30/06/2006 Fouille de données « process of nontrivial extraction of implicit, previously unknown and potentially useful information (such as knowledge rules, constraints, regularities) from data in databases » (G. Piatetski-Shapiro) Quelles structures/régularités ? Globales (→ modèles) : domaine = l’ensemble des données Locales (→ motifs, patterns) : domaine = fraction « intéressante » des données Quelle approche ? Exploratoire : découverte à partir des données plutôt qu’estimation ou test de modèles pré-spécifiés … mais on ne se limite pas à des étapes de description des observations, le but ultime est prédictif (décisionnel) 30 juin 2006 ESILV 3 Secteurs d’application de la fouille Source : http://www.kdnuggets.com, 2005 30 juin 2006 M. Crucianu ESILV 4 2 ESILV 30/06/2006 Méthodes de fouille de données Source : http://www.kdnuggets.com, 2005 30 juin 2006 ESILV 5 Exemples de méthodes Quelques méthodes descriptives Extraction de règles d’association Classification automatique : méthode des centres mobiles Classification ascendante hiérarchique Une méthode prédictive Machines à vecteurs support pour la discrimination 30 juin 2006 M. Crucianu ESILV 6 3 ESILV 30/06/2006 Règles d’association Recherche de règles du type « si pour une observation la variable X1 a la valeur vx1 et la variable X2 la valeur vx2, alors avec une probabilité de 0,9 la variable Y a la valeur vy » Caractérisation d’une règle Support : P ( Y ∩ X ) Confiance : P ( Y X ) P (Y X ) P ( Y ∩ X ) = Lift : P(Y ) P( X )P(Y ) Critères de sélection des règles Support et confiance : supérieurs à des seuils (entre 0 et 1) Lift : nettement supérieur à 1 30 juin 2006 ESILV 7 Classification automatique (cluster analysis, clustering) Objectif général : répartir un ensemble donné d’individus en groupes (catégories, classes, taxons, clusters) de façon à regrouper les individus similaires et à séparer les individus dissimilaires Aucune information n’est disponible concernant l’appartenance de certaines données à certaines classes ; le nombre de groupes recherchés peut être connu a priori ou non Utilisations : Mettre en évidence une structure (simple) dans un ensemble de données Résumer un grand ensemble de données par les représentants des groupes 30 juin 2006 M. Crucianu ESILV 8 4 ESILV 30/06/2006 Méthode des centres mobiles Objectif : répartir les n individus en k groupes disjoints E1 ,E 2 ,K ,E k (inconnus a priori) en optimisant une fonctionnelle de coût Données : ensemble E de n individus décrits par p variables à valeurs dans R Distance dans R p (euclidienne usuelle, Mahalanobis, Minkowsky, etc.) qui définit la nature des (dis)similarités Fonctionnelle à optimiser ( m j : centre de gravité du groupe E j ) : J (Μ ) = ∑ j =1 ∑ x ∈E d 2 (x i , m j ) (= somme inerties intra-classe) k i j Principe de la méthode : à partir d’une initialisation aléatoire de k vecteurs m j , alterner entre une étape de (ré)affectation des individus aux groupes (à partir de leur distances aux différents m j ) et une étape de (re)calcul des centres de gravité 30 juin 2006 ESILV 9 Centres mobiles : algorithme Initialisation aléatoire (Ré)affectation des points Calcul des centres de gravité 30 juin 2006 M. Crucianu Partition finale ESILV 10 5 ESILV 30/06/2006 Centres mobiles : algorithme (2) 1. Initialisation aléatoire des centres (dans le domaine couvert par les n individus) 2. Tant que les centres ne sont pas stabilisés, répéter Association de chaque individu au centre dont il est le plus proche (suivant la distance d ) Calcul du centre de gravité de l’ensemble d’individus associés au même centre et remplacement des anciens centres par les nouveaux 3. Chaque centre définit un groupe : l’ensemble des individus les plus proches de ce centre On peut montrer que l’algorithme converge vers un minimum de la fonctionnelle, mais la fonctionnelle possède en général de nombreux minima locaux 30 juin 2006 ESILV 11 Centres mobiles : exemples + + + + + 30 juin 2006 M. Crucianu ESILV 12 6 ESILV 30/06/2006 Centres mobiles : intérêt et limitations Intérêt : Simplicité… Paramètre unique : valeur souhaitée pour le nombre de classes Faible complexité : O t ⋅ k ⋅ n (t étant le nombre d’itérations) ( ) Limitations et solutions : Données vectorielles uniquement (pour calculer les moyennes) : limitation levée dans des méthodes dérivées (ex. k-medoids) Classes de forme sphérique (si la distance euclidienne usuelle est employée) : on peut se servir de la distance de Mahalanobis (calculée par classe) Dépendance des conditions initiales (car convergence vers minimum local) : diverses solutions (notamment stochastiques) Sensibilité au bruit : utilisation d’une fonctionnelle de coût robuste, estimation robuste des moyennes Choix a priori difficile du nombre de classes : introduction d’un terme de régularisation dans la fonctionnelle de coût 30 juin 2006 ESILV 13 Classification hiérarchique Objectif : obtenir une hiérarchie de groupes, qui offre une structure plus riche qu’un simple partitionnement (et permet d’obtenir plusieurs partitionnements à différents niveaux de granularité) 2 groupes 3 groupes 4 groupes 5 groupes 1 2 3 4 5 6 7 Méthodes : Ascendantes : procèdent par agglomération (agrégation) d’individus et de groupes Descendantes : procèdent par partitionnement de l’ensemble initial, puis des groupes 30 juin 2006 M. Crucianu 8 9 10 11 ESILV 14 7 ESILV 30/06/2006 Classification ascendante hiérarchique Procède par agrégation, à chaque étape, des 2 groupes (chaque individu étant également considéré comme un groupe) qui sont les plus proches (les moins dissimilaires) Mesures de dissimilarité entre 2 groupes (indices d’agrégation) : Indice du lien minimum : δ( h p , hq ) = min d ( x i , x j ) ( ) x i ∈h p x j ∈hq ( Indice du lien maximum : δ h p , hq = max d x i , x j Indice des centres de gravité : δ( h p , hq ) = x i ∈h p x j ∈ hq 1 h p hq ∑ ) x i ∈h p x j ∈ hq d ( xi , x j ) Indice de Ward (augmentation de l’inertie de la réunion des groupes) : δ( h p , hq ) = 30 juin 2006 h p hq h p + hq d 2 (m p , mq ) ESILV 15 CAH : algorithme Remarque : certains indices d’agrégation exigent des données vectorielles, pour d’autres un espace métrique suffit Choix nécessaires : mesure de distance entre individus, mesure de dissimilarité entre les groupes (indice d’agrégation) 2 Algorithme (complexité O n log n ) : 1. Initialisation : nombre de groupes au départ (Ng) = nombre d’individus (n) 2. Répéter ( ) Calcul de l’indice d’agrégation entre toutes les paires de Ng groupes issues de l’itération précédente Regroupement des 2 groupes les plus proches (valeur la plus petite de l’indice d’agrégation); les autres groupes restent inchangés ; Ng := Ng - 1 tant que Ng >1 30 juin 2006 M. Crucianu ESILV 16 8 ESILV 30/06/2006 CAH : effet des différents indices Indice du lien minimum : ne tient compte ni de la taille des groupes, ni de leur compacité ; permet de s’approcher d’un critère de regroupement basé sur la densité, mais peut facilement créer des arbres en escalier, déséquilibrés et peu exploitables pour le partitionnement : Indice du lien maximum : tient compte de la compacité des groupes, mais pas de leur effectif ; arbres plus équilibrés Indice de Ward : tient compte à la fois de l’effectif et de la compacité des groupes ; arbres équilibrés 30 juin 2006 ESILV 17 Discrimination La décision exige une bonne généralisation (modèle valable audelà des observations initiales) Trop simple ? « Bonne » complexité ? Trop complexe ? observations initiales observations ultérieures 30 juin 2006 M. Crucianu ESILV 18 9 ESILV 30/06/2006 Discrimination par SVM Support Vector Machines 1. Séparateurs à Vastes Marges 2. SVM ne servent pas seulement à séparer (aussi à la régression, …) SVM pas les seuls séparateurs à vastes marges (autre ex. : boosting) Machines à vecteurs support Exemple simple avec noyau angulaire Intensité de la couleur proportionnelle à l’éloignement de la frontière (outil employé : version maison de svm-toy) 30 juin 2006 ESILV 19 Classes linéairement séparables Données d’apprentissage Dn = { ( x i , yi ) }1≤ i ≤ n , yi ∈ {− 1, + 1 } On cherche une fonction de décision f (x ) = w T x + b , basée sur l’hyperplan w T x + b = 0, w étant un vecteur normal à l’hyperplan Affectation à la classe 1 si f (x ) > 0 Affectation à la classe 2 si f (x ) < 0 Séparabilité linéaire : ∃ w , b tels que yi f (x i ) > 0 pour 1 ≤ i ≤ n Remarque : si la condition est f (x ) = 0 valable pour w, b , alors elle Classe 1 Classe 2 est valable pour kw , kb , ∀ k > 0 + o o + + + o x O 30 juin 2006 M. Crucianu ESILV + o + o o + + o w o 20 10 ESILV 30/06/2006 Discrimination linéaire et marge Quelle séparation choisir quand plusieurs sont possibles ? ? + o + + o o + o o + + + o o + o Une possibilité : choisir la séparation qui maximise la marge (distance minimale entre un exemple et la surface de séparation) en fonction de w : marge = xTs w + b w marge + o + + + o + + vecteurs support o o donc marge = 1 w w + vecteur support x s o o + normalisation : xTs w + b = 1 pour tout o o 30 juin 2006 ESILV 21 Astuce des noyaux Comment étendre ces résultats à des séparateurs non linéaires ? Principe : transposer les données dans un autre espace (en général de plus grande dimension) dans lequel elles sont linéairement séparables (ou presque) Transformation φ : R d → H , x → φ(x ) , H espace de Hilbert Sous certaines conditions, l’existence de φ et de H est garantie et φ est associée à une fonction noyau K : R d × R d → R : ( ) φ(x i ), φ x j espace + + de départ + o o M. Crucianu ) + o o o o + + + + + + o o + o o 30 juin 2006 ( = K xi , x j o + + φ + o + o + espace d’arrivée o o + + o o w o ESILV 22 11 ESILV 30/06/2006 Exemples de noyaux 1.0 Linéaire : 0.9 K (x i , x j ) = x x j = x i , x j 0.8 0.7 T i 0.6 0.5 0.4 0.3 Exponentiel : ( K (x i , x j ) = exp − γ x i − x j ( Hyperbolique : ) Angulaire : K (x i , x j ) = 1 0.1 0.0 -5 -4 -3 -2 -1 0 1 2 3 4 5 -5 -4 -3 -2 -1 0 1 2 3 4 5 -5 -4 -3 -2 -1 0 1 2 3 4 5 -4 -3 -2 -1 0 1 2 3 4 5 1.0 0.9 Gaussien (RBF) : K x i , x j = exp − γ x i − x j ) 0.2 (ε + γ xi − x j K (x i , x j ) = − x i − x j 2 ) 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0.0 1.0 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0.0 -0.5 -1.0 -1.5 -2.0 -2.5 -3.0 -3.5 -4.0 -4.5 -5.0 -5 30 juin 2006 ESILV 23 Fouille : types de données traitées Source : http://www.kdnuggets.com, 2005 30 juin 2006 M. Crucianu ESILV 24 12 ESILV 30/06/2006 Fouille de données multimédia Données : images, vidéo, audio ; combinaisons entre ces types et/ou avec des données « classiques » Fouille de données multimédia = application directe de méthodes de fouille à un contenu multimédia ? Pas tout à fait : la représentation de départ de ce contenu est « opaque » et ne permet que rarement d’obtenir des résultats intéressants par l’application directe de méthodes de fouille → Obtenir d’abord de nouvelles représentations, plus appropriées : Séparation et description de caractéristiques Identification de « composantes » → Ce processus complexe de re-représentation est lui-même souvent considéré comme une fouille de données spécifiques 30 juin 2006 ESILV 25 Ex. 1 : rôle des gènes Objectif : identifier le rôle de gènes de Arabidopsis thaliana Procédé : blocage sélectif des gènes individuels, puis culture (phénotypage en masse) → images − gène 1 → − gène 2 − gène 3 − gène 4 − gène 5 − gène 6 … (pour génotypes viables) © NASC http://arabidopsis.info Effet phénotypique similaire ⇒ rôle dans même chaîne de synthèse (voir [GCB06]) 30 juin 2006 M. Crucianu ESILV 26 13 ESILV 30/06/2006 Ex. 2 : prémisses d’« événements » Objectif : déterminer les circonstances ou prémisses d’« événements » (accident, agression, vandalisme, etc.) → mesures de prévention Principe : analyse conjointe d’enregistrements de vidéosurveillance et de données contextuelles 30 juin 2006 ESILV 27 Ex. 3 : tendances musicales Objectif : déterminer des tendances concernant la demande de musique à un horizon de 6-12 mois Principe : analyse conjointe de l’évolution des ventes et des échanges pair-à-pair, des messages déposés sur des forums, du signal des pièces musicales référencées + 30 juin 2006 M. Crucianu + ESILV 28 14 ESILV 30/06/2006 Représentation du contenu multimédia Séparation et description de caractéristiques Image : couleurs, textures, formes Vidéo : couleurs, textures, formes, mouvements Audio : temporelles, spectrales Identification de « composantes » Image : régions homogènes, points d’intérêt, configurations ; objets, visages, etc. Vidéo : shots ; scènes, key-frames, régions à mouvement cohérent, objets, personnes, etc. Audio : séparation/segmentation voix/musique/bruit, événements sonores (ex. but dans un match, explosion, etc.) → Manifestation du gap sémantique (signal ↔ signification) ! 30 juin 2006 ESILV 29 Description des images : typologie Descripteurs génériques 1. 2. Description globale (approximative) de l’image Description locale (potentiellement plus précise) Caractéristiques décrites : couleurs, textures, formes… Descripteurs spécifiques 30 juin 2006 M. Crucianu Description de régions homogènes Description autour de points d’intérêt Empreintes digitales : minuties Visages : EigenFaces, DSW… ESILV 30 15 ESILV 30/06/2006 Description globale de l’image Description des couleurs Description des formes Description des textures Assembler les différents types de description pour décrire de façon plus complète chaque image 30 juin 2006 ESILV 31 Description locale de l’image Segmentation en régions Détection de points d’intérêt Description des régions Description autour des points Descripteur de la région Descripteur du point http://www-rocq.inria.fr/imedia 30 juin 2006 M. Crucianu ESILV 32 16 ESILV 30/06/2006 Description des couleurs Choix d’un espace de représentation des couleurs : RVB, CMY, HSV, Lab, Luv Critères : uniformité perceptive, … Description par histogrammes couleur Échantillonnage des couleurs de l’image Histogramme pondéré pour chaque couleur c : ~ 1 M −1 N −1 h(c) h (c) = ∑ ∑ w(i, j ) δ ( f (i, j) − c ) MN i =0 j =0 Pondération : variabilité ou uniformité locale Mesures de similarité entre histogrammes c Métriques L1, L2, etc. Intersection d’histogrammes 30 juin 2006 ESILV 33 Recherche par similarité : exemple 1 Description globale par histogrammes couleur pondérés Mesure de similarité L1 30 juin 2006 M. Crucianu ESILV http://www-rocq.inria.fr/imedia 34 17 ESILV 30/06/2006 Description des textures 1. Principe : analyse spectrale en 2D Basée sur la transformée de Fourier F (u ) = ∫∫ I ( x) e −i u x d x R2 Inadaptée à la caractérisation de régions de forme quelconque 2. Basée sur les ondelettes Mieux adaptée à la caractérisation de régions de forme quelconque (analyse locale) n 1 x − u x ψ (x) d x = 0 n = 1,K , p − 1 ψ ( a ,u,θ) ( x) = ψ R −θ ∫∫ a a R2 Wf ( a, u, θ) = ∫∫ f (x) ψ ( a ,u ,θ) ( x) d x R2 30 juin 2006 ESILV 35 Description des formes Description globale : en général basée sur la détection de contours et la caractérisation de leur orientation Description de la forme d’une région : nombreuses méthodes (voir [ZL04]), parmi lesquelles Edge Orientation Histogram (EOH) Transformée de Hough Moments (géométriques, Zernicke, Legendre, etc.) Spectre de la représentation en coordonnées polaires Curvature Scale-Space (CSS) Directional Fragment Histogram (DFH) [YB05] Description d’une configuration de points Moments ACP à noyaux [Sah04] 30 juin 2006 M. Crucianu ESILV 36 18 ESILV 30/06/2006 Segmentation en régions homogènes Nombreuses méthodes, avec des objectifs et des domaines d’applications différents Critères d’homogénéité suivant les objectifs, souvent liés à la couleur locale, parfois à la texture locale Segmentation fine Segmentation grossière http://lmb.informatik.uni-freiburg.de/people/siggelkow/ http://www-rocq.inria.fr/imedia 30 juin 2006 http://www-rocq.inria.fr/imedia/biotim/ ESILV 37 Détection de points d’intérêt Point d’intérêt = site « informatif » de l’image Kitchen et Rosenfeld : détecteur de coins sur les contours I I 2 − 2 I xy I x I y + I yy I x2 maximiser K = xx y ( I x2 + I y2 ) 3 2 Harris précis niveaux de gris : bonne robustesse 1. 2. Calcul des dérivées premières, après lissage gaussien Calcul de M (avec lissage gaussien) I2 M = Sσ x I x I y 3. 30 juin 2006 M. Crucianu Ix I y I y2 Calcul des maxima locaux de det (M ) − k trace 2 (M ) , k = 0.04 Harris précis couleur Harris – Laplace, etc. ESILV http://www-rocq.inria.fr/imedia/biotim/ 38 19 ESILV 30/06/2006 Caractérisation des points d’intérêt Description photométrique locale autour d’un point d’intérêt détecté Objectifs : invariances (transformations affines, changement d’illumination, changement de point de vue), parcimonie Descripteurs : Jet local : coefficients de la série de Taylor (jusqu’à l’ordre n) Invariants différentiels de Hilbert ; R 2 ∇ R généralisés à la couleur : HCP ordre 1 : G 2 ∇G B 2 ∇B ∇ R ∇ G ∇ R ∇ B SIFT [Low04], etc. 30 juin 2006 ESILV 39 Recherche par similarité : exemple 2 Requête Description locale des points d’intérêt Recherche par similarité entre ensembles de points 30 juin 2006 M. Crucianu ESILV http://www-rocq.inria.fr/imedia 40 20 ESILV 30/06/2006 Recherche itérative : exemple Objectif de la recherche : retrouver des portraits Base de 7500 images, dont 110 portraits Disponible : description globale (couleur, texture, forme) → 120 dimensions 1 2 + ++ + + + + + + + + 3 oo + + 30 juin 2006 o + + + + + + + + … + + + + + o o + + + o + o + + ESILV http://www-rocq.inria.fr/imedia [FCB04] 41 Détection et reconnaissance d’objets Méthodes en général basées sur Qu’est-ce qui change pour la vidéo ? Apprentissage supervisé (réseaux de neurones, SVM, boosting) Descripteurs locaux (et configuration spatiale) : robustesse à l’occultation partielle et à différentes transformations. Couplage avec la forme Mouvement → facilite la détection des objets en mouvement Redondance temporelle → détection et reconnaissance plus robustes Des efforts à faire pour Reconnaissance d’un nombre élevé de classes d’objets (> 100…) Rapidité de la reconnaissance http://www-rocq.inria.fr/imedia 30 juin 2006 M. Crucianu http://cedric.cnam.fr/vertigo ESILV 42 21 ESILV 30/06/2006 Visages : détection Méthodes en général basées sur Apprentissage supervisé (cascade de SVM, boosting) Descripteurs spécifiques (par ex. ondelettes de Haar) Des efforts à faire pour Détection de visages de profil Diminution du taux de faux positifs (sans augmenter excessivement le taux de faux négatifs) http://www-rocq.inria.fr/imedia 30 juin 2006 http://vasc.ri.cmu.edu/NNFaceDetector/ ESILV 43 Visages : reconnaissance Méthodes en général basées sur Apprentissage supervisé (réseaux de neurones, SVM, boosting) Descripteurs spécifiques Des efforts à faire pour Reconnaissance de visages de personnes non coopératives… Reconnaissance d’un nombre élevé de visages différents Reconnaissance de visages de profil http://www.myheritage.com http://www-rocq.inria.fr/imedia 30 juin 2006 M. Crucianu ESILV 44 22 ESILV 30/06/2006 Quelles relations entre quelles représentations L’objectif final est de trouver des structures/régularités dans les données multimédia Les structures/régularités que l’on peut trouver sont très dépendantes de la représentation Nombreuses structures/régularités présentent peu d’intérêt Alternatives 1. 2. Choix/construction préalable de représentations plus appropriée (séparation de caractéristiques, identification de composantes) Recherche simultanée de représentations appropriées et de structures/régularités entre ces représentations 30 juin 2006 Exemple : grande librairie de descripteurs, sélection automatique des descripteurs mettant en évidence les régularités les plus « saillantes » Difficultés : critère de saillance, taille de l’espace de recherche, danger élevé de “data dredging” ESILV 45 Malédiction de la dimension Quel est l’impact de la dimension des données ? Entre autres : La densité diminue rapidement avec la dimension ⇒ problèmes pour l’estimation de densités, tests statistiques… La variance de la distribution des distances diminue avec l’augmentation de la dimension (« concentration des mesures ») ⇒ problèmes pour l’exploitation des distances (classification, kNN)… → Nécessité de réduire la dimension (sélection ou synthèse des Données uniformes : variation de la variables) ou d’employer des distribution des distances avec la dimension méthodes sur lesquelles la Dimension dimension a moins d’impact 30 juin 2006 M. Crucianu ESILV © Paolo Ciaccia 46 23 ESILV 30/06/2006 Accès aux données Volumétrie des données Exemple 1 : 1 000 000 images décrites par 20 régions décrites par un vecteur de dimension 40 → recherche dans un espace de dimension 40 contenant 100 millions (500 000 × 20) de vecteurs Exemple 2 : 20 000 heures de vidéo décrites par des points d’intérêt représentés par des vecteurs de dimension 30 → recherche dans un espace de dimension 30 contenant env. 20 milliards de vecteurs → Nécessité de rendre la recherche efficace (lors des processus de classification, modélisation, décision) Méthodes de structuration (indexation multidimensionnelle) Partitionnement des données (pour distribution peu uniforme) : R-tree, SR-tree, M-tree Partitionnement de l’espace ou filtrage des données (pour distribution plutôt uniforme) : KDB-tree, LSD-tree, VA-file 30 juin 2006 ESILV 47 Conclusions et perspectives Grand potentiel d’application, mais maturité pas encore atteinte La fouille de données multimédia n’est pas simplement l’application directe de méthodes de fouille au contenu multimédia Travailler sur des représentations plus appropriées : obtenues pendant la fouille (difficile) ou lors d’une étape préalable Séparation et description de caractéristiques Identification de « composantes » ⇒ Nécessaire d’avoir une idée de ce qu’on cherche pour choisir ou trouver une représentation appropriée Développement en parallèle avec d’autres disciplines : traitement du signal, bases de données 30 juin 2006 M. Crucianu ESILV 48 24 ESILV 30/06/2006 Bibliographie [ASR05] J. Amores, N. Sebe, P. Radeva. Fast Spatial Pattern Discovery Integrating Boosting with Constellations of Contextual Descriptors. Proceedings of CVPR’05, San Diego, USA, June 2005. [CAB04] M. Crucianu, J.-P. Asselin de Beauville, R. Boné, Méthodes factorielles pour l'analyse des données : méthodes linéaires et extensions non-linéaires. Hermès, 2004, 288 p. [DDR03] D. Doermann, D. Dementhon, A. Rosenfeld. Video Mining. Kluwer Academic Publishers, 2003. [FCB04/1] Ferecatu, M., Crucianu, M., Boujemaa, N. Retrieval of Difficult Image Classes Using SVM-Based Relevance Feedback. In Proceedings of the 6th ACM SIGMM International Workshop on Multimedia Information Retrieval, New York, 2004, pp. 23-30. [GCB06] N. Grira, M. Crucianu, N. Boujemaa. Active semi-supervised fuzzy clustering. Pattern Recognition, à paraître. [Low04] D. G. Lowe, Distinctive image features from scale-invariant keypoints, International Journal of Computer Vision 60: 2 (2004), 91-110. 30 juin 2006 ESILV 49 Bibliographie [PP93] N.R. Pal, S.K. Pal. A review on image segmentation techniques, Pattern Recognition 26: 9, 1277-1294, 1993. [Per03] P. Perner. Data Mining on Multimedia Data. LNCS 2558. Springer, 2003. [Sah04] H. Sahbi. Affine Invariant Shape Description Using the Triangular Kernel. INRIA Research Report RR-5308, September 2004. [VG01] P. Viola, M. Jones. Rapid object detection using a boosted cascade of simple features. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (Kauai, HI). IEEE Computer Society Press, 2001, 511-518. [YB05] I. Yahiaoui, N. Boujemaa. Content-based image retrieval in botanical collections for gene expression studies. Proceedings of ICIP'05, Genova, Italy, 2005. [ZL04] D. Zhang, G. Lu. Review of shape representation and description techniques. Pattern Recognition 37: 1, 2004, 1-19. 30 juin 2006 M. Crucianu ESILV 50 25