Table des matières
TABLE DES MATIERES ........................................................................................................................................... 2
RESUME........................................................................................................................................................................ 4
ABSTRACT ................................................................................................................................................................... 4
1. INTRODUCTION .................................................................................................................................................... 5
1.1 PROBLEMATIQUE.................................................................................................................................................. 5
1.2 ETUDE BIBLIOGRAPHIQUE ET ETAT DE L’ART ..................................................................................................... 6
1.3 APPORTS ET ORIGINALITE DU TRAVAIL ............................................................................................................... 8
1.4 PLAN DU RAPPORT................................................................................................................................................ 9
2. SYSTEMES D’APPRENTISSAGE NON SUPERVISE ET DONNEES STRUCTUREES EN
SEQUENCES .............................................................................................................................................................. 10
2.1 CLASSIFICATION A BASE DE DISTANCE.............................................................................................................. 11
2.1.1 Classification Ascendante Hiérarchique (CAH) ..................................................................................... 11
2.1.2 Méthode des Nuées Dynamiques et « k-means ».....................................................................................12
2.1.3 Limites des algorithmes de classification basés sur une distance..........................................................13
2.2 MODELES DE MELANGE DE DISTRIBUTIONS ...................................................................................................... 13
2.2.1 Principe ......................................................................................................................................................13
2 .2.2 Formalisation mathématique...................................................................................................................14
2.2.3 Des distributions bien adaptées aux séquences : les chaînes de Markov..............................................15
2.2.4 Détermination du nombre de classes optimal ......................................................................................... 15
2.3 CARTES TOPOLOGIQUES DE KOHONEN (SOM) ................................................................................................. 16
2.3.1 Intérêt et positionnement dans les outils d’analyse de données.............................................................16
2.3.2 Fondements biologiques ...........................................................................................................................17
2.3.3 Principe ......................................................................................................................................................18
2.3.4 Algorithme d’apprentissage de la carte................................................................................................... 19
2.3.5 Utilisation de la carte................................................................................................................................20
2.3.6 Architecture de la carte.............................................................................................................................20
2.4 BINBATCH : CARTE TOPOLOGIQUE POUR LES DONNEES BINAIRES.................................................................. 21
2.5 CARTE TOPOLOGIQUE PROBABILISTE ............................................................................................................... 22
2.5.1 Modèle probabiliste...................................................................................................................................22
2.5.2 Estimation des paramètres........................................................................................................................23
2.6 MODELE DE MARKOV CACHE APPLIQUE AUX CARTES PROBABILISTES.......................................................... 23
2.6.1 Processus de chaîne de Markov ...............................................................................................................23
2.6.2 Modèle de Markov caché (HMM) et carte topologique..........................................................................24
2.6.3 Eléments d’un HMM .................................................................................................................................25
2.6.4 Probabilité de transition à partir des SOM.............................................................................................26
3. APPLICATION A LA FOUILLE DE SEQUENCES TEXTUELLES ET BIOLOGIQUES ....................27
3.1 DONNEES TEXTUELLES ...................................................................................................................................... 27
3.1.1 Codage et prétraitement des séquences ...................................................................................................27
3.1.2 Résultats des SOM.....................................................................................................................................29
3.1.3 Résultats des SOM probabilistes .............................................................................................................. 44
3.1.4 Résultats des SOM+HMM ........................................................................................................................45
3.1.5 Résumé des résultats et conclusion .......................................................................................................... 47
3.2 DONNEES GENETIQUES....................................................................................................................................... 49
3.2.1 Codage et prétraitement des séquences ...................................................................................................50
3.2.2 Résultats des SOM.....................................................................................................................................50
3.2.3 Résultats des SOM+HMM ........................................................................................................................51
4. CONCLUSION ET PERSPECTIVES ................................................................................................................ 53
5. REFERENCES BIBLIOGRAPHIQUES............................................................................................................55
6. REALISATIONS INFORMATIQUES...............................................................................................................58