République Algérienne Démocratique et Populaire Ministère de l’Enseignement Supérieur et de la Recherche Scientifique Université des Sciences et de la Technologie d’Oran Mohamed Boudiaf Faculté de Mathématiques et Informatique Département d’Informatique MEMOIRE En vue de l’obtention du Diplôme de Magistère Présenté et Soutenu par : Mr. MOUSSATI Omar Intitulé Classification des données de biopuces : Mathématiques et Informatique. : Informatique. : Simulation et Intelligence Artificielle. Domaine Spécialité Intitulé de la Formation Le jury est composé de : Pr Mr. BENYETTOU Abdelkader Président USTO-MB Pr Mme. IZABATENE FIZAZI Hadria Examinatrice USTO-MB Pr Mr. BENYETTOU Mohamed Rapporteur USTO-MB Examinateur USTO-MB Dr Mr. BELKADI Khaled Année Universitaire 2015 / 2016 Abstract Medical diagnosis is very important in the field of recognition and treatment of disease. The biochip is a modern technology which helps us to make the diagnosis. To treat our subject of classification, we presented the various stages of an analysis by DNA chip, then we have applied selection methods such as Fisher test and the BW test on selecting population. The KNN algorithm and the dual explorations genetic algorithm are applied to all the genes selected for classification. The classification rate we found show that our results are competitive. We plan to do a combination of different methods of selection and to validate the results biologically. Keywords— Biochips ; Microarray; Data Classification ; DNA chip . Résumé Le diagnostic médical est un élément très important dans le domaine de reconnaissance et traitement des maladies. La biopuce est l’une des techniques modernes qui nous aide à faire le diagnostic. Pour traiter notre sujet de classification, nous avons présenté les différentes étapes d’une analyse par puce à ADN, puis nous avons appliqué des méthodes de sélection telles que le test de Fisher et le test BW sur la population de sélection. L’algorithme Kppv et l’algorithme génétique à double explorations sont appliqués sur l’ensemble des gènes sélectionnés pour faire la classification. Les taux de classification que nous avons trouvés montrent que nos résultats sont compétitifs. Nous envisageons de faire une combinaison entre les différentes méthodes de sélection et de valider les résultats biologiquement. Mots-clés : Biopuces; Classification des données; Puce à ADN. Dédicaces Je dédie ce travail A Mes très chers parents qui m’ont aidé et encouragé durant toutes les années de mes études. A Tous mes enseignants. A Mes frères et sœurs. A Toute la famille MOUSSATI et A Tous mes amis. I Remerciements Je remercie DIEU qui m’a guidé dans mes pas et qui m’a donné le courage tout au long du développement de ce mémoire. Je tiens à exprimer mes sentiments de gratitude et de reconnaissance à mon encadreur Monsieur Mohamed BENYETTOU, professeur à l’université Des sciences et technologie d’Oran (USTO) , qui a consacré son temps à suivre de près l’évolution de ce projet, à orienter les différentes étapes et à pallier toutes les difficultés auxquelles j’ai eu à faire face. Je souhaiterais vivement remercier l’ensemble de l’équipe de Simulation et Intelligence Artificielle, je tiens aussi à remercier tous les étudiants de S.I.A et M. O. E.P.S, pour avoir créé une ambiance chaleureuse et amicale tout au long de mes études. Je suis aussi reconnaissant envers tous les enseignants qui ont contribué durant toutes mes études. Ainsi, tous ceux qui m’ont aidé de près ou de loin à réaliser ce modeste travail. J’adresse ma reconnaissance à tous les personnes qui mon fait l’honneur d’avoir participé à mon jury. II Table des matières Table des matières Introduction ...............................................................................................................................2 Chapitre1 : Notions Biologiques Elémentaires. 1.1 La cellule .............................................................................................................................6 1.2 Acide désoxyribonucléique (ADN) …………………………….……………..………….6 1.3 Le transcriptome…………… …………………………………………………..….……...7 1.4 La méthode P C R .……………………………………………………….…….………....8 1.4.1 Introduction .………………………………… …………………….…………….…8 1.4.2 Principe de la PCR :……………………………………………….………..……….9 1.5 Historique des biopuces :………………………………………………....…….…….….10 1.6 Synthèse du chapitre :………………………………………………………………..….13 Chapitre2 : Principe des biopuces. 2.1 Principe des puces à ADN ………………………………….………………..…….........16 2.1.1 La préparation des cibles et l’hybridation ………………….…..……..…….…..17 2.1.2 Acquisition et analyse des images …………………… ……..…………..…........17 2.1.3 Transformation des données ………………………………………….……........18 2.2. Plateformes :………………………………………………………….…………..……..20 2.2.1 Technologie Agilent …………………………………………………..……........20 2.2.1.1 Avantages ………………………………………………..…………..….20 2.2.1.2 Inconvénients …………………………………………………….…. ....21 2.2.2 Technologie Affymetrix :…………………………………………….……… …..21 2.2.2.1 Avantages . ………………………………………………………… …...21 2.2.2.2 Inconvénients………………………………………………………… …22 2.3 Domaines d’application ………………………………………….…..………………… 22 2.3.1 L’environnement ………………………………………….…………………... ...22 2.3.2 Diagnostics médicaux ………………………………………………..………... ..23 III Table des matières 2.3.3 Expertise médico-légale ………………………………………………… ….…...23 2.4 Banques de données génomiques ……………………………………………….…..…..23 2.4.1 La MGED (Microarray Gene Expression Data Society) ………………….….......23 2.4.1.1 MIAME :…..…………… ……………………………………...……….......23 2.4.1.1.1 MAGE-ML :…………………………………………………...……..…...24 2.4.1.1.2 MAGE-TAB :………………………………………………..….…….......24 2.4.2 Gene Expression Omnibus (GEO) :…………………………………………….....24 2.4.3 ArrayExpress …………………………………………………….……………......25 2.5 Les outils de traitement :……………………………………………………………...27 2.5.1 Les outils d’analyse d’image :…………………………………………………......27 2.5.2 Langage R :……………………………………………………...…….……....….....28 2.5.3 Projet BioConductor ( 2000 ) :……………………………………….……..............28 2.6 Synthèse du chapitre :……………………………………………………………….…...30 Chapitre3 : Etapes d’analyse des données de biopuce 3.1 Prétraitement des données (Preprocessing)……………………………………………. 33 3.1.1 Etapes du prétraitement des données ………………………………………….33 3.1.1.1 Correction du bruit de fond (Background Correction)…………………… 33 3.1.1.2 Normalisation…………………………………………………………….. 33 3.1.1.2.1 Normalisation des puces Affymetrix ……………………………....34 3.1.1.2.1.1 Normalisation des quantiles (quantiles normalization) …34 3.1.1.3 Sommarisation……………………………………………………………..36 3.2 Sélection des attributs pour traitement des données …………………………...……36 3.3 Synthèse du chapitre ……………………………………………………………...…38 Chapitre 4 : Classification des données de biopuces. 4.1 Classification …………………………………………………………………………41 4.1.1 Buts et modalités de la classification ………………………………………………41 4.1.2 La classification,un domaine multidisciplinaire…………….…………………..….42 4.1.2 .1 Classification et statistique ………………………………………………..…..42 4.1.2.2 Classification et programmation mathématique………………………...……. 43 IV Table des matières 4.1.2.3 Classification et apprentissage automatique …………………………………..43 4.1.2.4 Classification et aide multicritère à la décision ……………………………….44 4.2 K-ppv………………………...………………………………………...……………….. 44 4.3 Algorithmes génétiques …………………………………………………………………45 4.3.1 Représentation des solutions ………………………………………………………..46 4.3.2 Fonction d’évaluation……………………………………………………………… 46 4.3.3 Opérateurs génétiques ………………………………………………………….…47 4.3.3.1 L’opérateur de sélection ……………………………………………………..47 4.3.3.2 L’opérateur de croisement ………………………………………………....51 4.3.3.3 L’opérateur de mutation…………………………………………………...... 51 4.3.4 Phase de remplacement………………………………………………………….… 51 4.4 Algorithme génétique à double explorations…………………………………..….…. 52 4.5 Synthèse du chapitre…………………………………………………………….….... 53 Chapitre 5 : Résultats. 5.1 Jeu de données utilisé dans ce mémoire ……………………………………....……...56 5.1.1 5.2 Cancer de la Prostate ……………………………………………………………...56 Résultats ………………………………………………………………………….…..56 5.2.1 KPPV ……………………………………………………………………………..56 5.2.2 AG-AG …………………………………………………………………………....57 5.2.3 Comparaison de nos résultats avec d’autres travaux …………………..………....58 5.3 Synthèse du chapitre ………………………………………………………..………..61 Conclusion et perspectives…………………………………………………...…..………....63 Références…………………………………………………………...……………………....66 V Liste des figures Liste des figures Chapitre1 : Notions Biologiques Elémentaires. Figure1.1 – Structure d’une molécule d’ADN…………………………………………..........6 Figure 1.2 Dogme central de la biologie moléculaire(Source site ISIMA,auteurVin entBarra)……………………………………………………………………………………....7 Figure 1.3. L’amplification de l’ADN dans la PCR……………………………………….....9 Chapitre2 : Principe des biopuces. Figure 2.1 – Etapes d’une analyse par puces à ADN………………………………………..16 Figure 2.2 – Processus d’acquisition d’image……………………………………………….19 Figure 2.3 – Différents fichiers intervenant de l’importation aux résultats d’analyse………26 Figure 2.4 visualisation d’un scan à l’aide de GenePix Pro……………………….………...27 Figure 2.5 – Page d’accueil du projet BioConductor………………………………………..28 Chapitre3 : Etapes d’analyse des données de biopuce Figure 3.1 –Nuage de points sur une puce à ADN avant et après normalisation logarithmique……………………………………………………….…………………….….34 Figure 3.7 – Nuage de points avant et après normalisation sur 4 puces Affymetrix. (a) Nuage de points avant normalisation.(b) Nuage de points après normalisation………………….....35 Chapitre 4 : Classification des données de biopuces. Figure 4.1 – Éléments d’un algorithme génétique……………………………………….….47 Chapitre 5 : Résultats. Figure 5.1 Taux de classification des données de biopuces……………………………..….57 Figure 5.2 Schéma général d’analyse des données de biopuces ………………………..….58 VI Liste des tables Liste des tables Table 2.1 – Matrice d’expression des gènes……………………………………………...…..19 Table 5.1- Résultats obtenus par la méthode KPPV………………………………………….56 Table 5.2- Résultats obtenus par la méthode AG-AG……………………………………......57 VII Introduction Introduction Le domaine de la bioinformatique suscite depuis plusieurs années un intérêt très grand dans la communauté scientifique car il ouvre des perspectives très riches pour la compréhension des phénomènes biologiques. Ces phénomènes nécessitent la collaboration entre biologistes, médecins, informaticiens, mathématiciens et physiciens . Dans ce mémoire nous abordons un problème de bioinformatique qui est celui de la classification des données de biopuces. La technologie des puces à ADN repose sur une technologie multidisciplinaire intégrant la biologie, la nanotechnologie, la chimie des acides nucléiques, l'analyse d'images et la bioinformatique. La biopuce est une technique d’analyse moderne, elle est très utilisé dans plusieurs domaine : dans la médecine, dans la pharmacologie, l'agriculture et de nombreux autres domaines. Avec le développement rapide de la technologie des puces à ADN depuis les dernières décennies, il est possible aujourd’hui d’étudier simultanément l’expression de milliers de gènes. Les données d’expressions provenant de cette technologie sont observées et analysées sous différentes conditions expérimentales. Ces données obtenues sont généralement analysées pour des objectifs divers. Certaines données d’expression de gènes sont spécifiques aux maladies. Elles peuvent être utilisées pour inférer les gènes liés à un cancer, afin d’identifier les différents cancers sur la base de ces gènes. D’autres données d’expressions sont utilisées pour prédire les gènes impliqués dans les processus de régulation des différentes étapes de phénomènes de l’organisme vivant tel que le cycle cellulaire. La grande quantité des gènes que l’on observe en plus de la complexité des processus biologiques posent un vrai souci pour la compréhension et l’interprétation des masses de résultats obtenus. 2 La classification permet d’interpréter ces masses de résultats. Nous allons utiliser dans ce mémoire deux algorithmes de classification. L’algorithme Kppv et l’algorithme génétique à double exploration pour différencier les tissus tumoraux et les tissus sains à partir de la mesure simultanée d’un grand nombre de gènes au sein d’un échantillon biologique. Le présent mémoire est organisé comme suit : Dans le premier chapitre nous allons présenter des notions élémentaires en biologie qui sont les bases de notre sujet de recherche dans ce mémoire. Dans le second nous allons définir le principe des biopuces , les banques des données génomiques et quelques outils de traitement. Ensuite nous allons exposer les différentes étapes d’analyse des données et des méthodes de sélection des gènes au troisième chapitre. Le quatrième chapitre va être consacré aux définitions de la classification et la présentation de nos deux approches proposées pour notre sujet. Dans le cinquième chapitre, nous allons présenter nos résultats ainsi que la comparaison avec des modèles de références. . 3 Chapitre 1 Notions Biologiques Elémentaires. Sommaire Chapitre1 : Notions Biologiques Elémentaires. 1.1 La cellule .............................................................................................................................6 1.2 Acide désoxyribonucléique (ADN) …………………………….……………..…………..6 1.3 Le transcriptome…………… …………………………………………………..….……...7 1.4 La méthode P C R .……………………………………………………….…….………....8 1.4.1 Introduction .………………………………… …………………….…………….…8 1.4.2 Principe de la PCR :……………………………………………….………..……….9 1.5 Historique des biopuces :………………………………………………....…….…….….10 1.6 Synthèse du chapitre :………………………………………………………………..….13 Chapitre1 : Notions Biologiques Elémentaires. 1.1 La cellule C’est la plus petite unité structurale et fonctionnelle de tous les êtres vivants. Il existe des milliers de type de cellules différents par leur forme, leur taille, leur fonction et leur comportement. Chez les organismes dits procaryotes tels que les bactéries, le matériel génétique n’est pas contenu dans un noyau mais est libre dans tout le cytoplasme de la cellule. Par contre, les organismes complexes comme les eucaryotes qui sont pluricellulaires, l’information génétique est localisée dans un noyau. L’homme, les animaux et les plantes sont des organismes eucaryotes. La plupart de leurs cellules sont capables de grossir et se diviser. Elles sont dotées d’un métabolisme, c’est à dire la capacité d’importer des nutriments et les convertir en molécules et en énergie. 1.2 Acide désoxyribonucléique (ADN) L’acide désoxyribonucléique (A.D.N) est une molécule présente dans le noyau de la cellule qui joue un rôle central dans la vie cellulaire. Il renferme l’ensemble des informations nécessaires au développement et au fonctionnement d’un organisme. Cette macromolécule a une structure en double hélice constituée de deux brins antiparallèles. Un brin simple est un polymère linéaire constitué de 4 nucléotides. Un nucléotide comprend une des bases : adénosine (A), cytosine (C), guanine (G), ou thymine (T). Les couples A-T et G-C sont appelés bases complémentaires par lesquelles les deux brins vont s’associer (Figure 1.1). Figure1.1 – Structure d’une molécule d’ADN. 6 Chapitre1 : Notions Biologiques Elémentaires. 1.3 Le transcriptome Le gène, unité de base de stockage de l’information génétique, est une petite séquence d’ADN. Il y a environ 6000 gènes chez les levures par exemple et 30000 chez l’homme. L’ensemble du matériel génétique d’un individu ou d’une espèce encodé dans son ADN est appelé alors son génome. En fonction de leurs besoins, les cellules utilisent à un instant donné une partie des gènes pour réaliser la synthèse des protéines nécessaires aux grandes fonctions cellulaires. Le passage du gène à la protéine se fait en deux grandes parties, la transcription et la traduction, à l’aide d’un agent essentiel l’ARNm, dit ARN messager. le gène est transcrit (synthèse de l’ARNm) puis l’ARNm est conduit hors du noyau dans le cytoplasme ou il va servir de matrice pour la synthèse des protéines pour la traduction. De manière générale, pouvoir comparer le transcriptome de différents types cellulaires, dans différentes conditions, ou pouvoir analyser l’ensemble du transcriptome d’une cellule à plusieurs phases de son cycle cellulaire ou dans diverses conditions pathologiques, doit permettre de mieux comprendre le fonctionnement cellulaire sur le plan fondamental. Les méthodes d’analyse du transcriptome les plus utilisées reposent sur la technologie des puces à ADN car elles permettent de visualiser simultanément le niveau d’expression de plusieurs milliers de gènes dans un contexte physiologique ou pathologique particulier. [1]. Figure 1.2 Dogme central de la biologie moléculaire(Source site ISIMA,auteurVin entBarra). 7 Chapitre1 : Notions Biologiques Elémentaires. 1.4 La méthode P C R 1.4.1 Introduction La mise au point de la technique de réaction de polymérisation en chaîne (PCR) par K. Mullis et ses collaborateurs en 1985 a révolutionné la biologie moléculaire et la médecine moléculaire [2]. La réaction de polymérisation en chaîne est une technique utilisée pour amplifier à l’aide d’enzymes une région déterminée de l’ADN qui se trouve entre deux régions de séquence ADN connue. Alors qu’autrefois seules de très petites quantités d’un gène spécifique pouvaient être obtenues, la PCR permet maintenant d’amplifier même une seule copie de gêne à un million d’exemplaires en quelques heures. Les techniques PCR sont devenues essentielles pour beaucoup de procédures communes, telles que le clonage de fragments d’ADN spécifiques, la détection et l’identification de gènes à des fins de diagnostic et en médecine légale ainsi que dans la recherche sur les modes d’expression génique. Plus récemment, la PCR a permis l’exploration de nouveaux domaines, tels que le contrôle de l’authenticité de denrées alimentaires, la présence d’ADN génétiquement modifié et la contamination microbiologique. L’ADN contient l’information génétique complète qui définit la structure et la fonction d’un organisme. Trois processus différents sont responsables de la transmission de l’information génétique: la réplication; la transcription; la traduction. Au cours de la réplication, un acide nucléique bicaténaire est dupliqué pour donner des copies identiques. Ce processus perpétue l’information génétique. Lors de la transcription, un segment d’ADN constituant un gène est lu et transcrit en une séquence monocaténaire d’ARN. L’ARN se déplace du noyau vers le cytoplasme. Enfin, pendant la traduction, la séquence d’ARN est traduite en séquence d’acides aminés lors de la formation de la protéine [3]. La réplication de l’ADN est le processus sur lequel la PCR est basée, et est décrite ciaprès. 8 Chapitre1 : Notions Biologiques Elémentaires. 1.4.2 Principe de la PCR La PCR est basée sur le mécanisme de la réplication de l’ADN : l’ADN bicaténaire est déroulé en ADN monocaténaire, puis dupliqué et «réenroulé». Cette technique comprend les cycles répétitifs suivants: dénaturation de l’ADN par fusion à haute température pour convertir l’ADN bicaténaire en ADN monocaténaire ; hybridation à l’ADN cible de deux oligonucléotides utilisés comme amorces; extension de la chaîne d’ADN par addition de nucléotides à partir des amorces en utilisant l’ADN polymérase comme catalyseur en présence d’ions Mg2+. Les oligonucléotides consistent généralement en séquences relativement courtes qui sont différentes les unes des autres et complémentaires des sites de reconnaissance flanquant le segment d’ADN cible à amplifier. Les étapes de dénaturation de la matrice, d’hybridation des amorces et d’extension des amorces constituent un «cycle» dans la méthode de réaction de polymérisation en chaîne. A l’étape finale de la PCR, on obtient une copie identique à celle de la première. (figure 1.3) Figure 1.3. L’amplification de l’ADN dans la PCR. 9 Chapitre1 : Notions Biologiques Elémentaires. 1.5 Historique des biopuces Le développement des biopuces a une longue histoire, en commençant par les premiers travaux sur la technologie des capteurs sous-jacente [4]. L'un des premiers portable, capteurs à base de chimie était l'électrode de pH en verre, inventé en 1922 par Hughes. Mesure de pH a été accompli en détectant la différence de potentiel développé à travers une membrane de verre mince sélective de la perméation des ions d'hydrogène; Cette sélectivité a été obtenu par des échanges entre H+ et les sites SiO dans le verre. Le concept de base de l'utilisation de sites d'échange pour créer membranes à perméabilité sélective a été utilisé pour développer d'autres ions capteurs dans les années subséquentes. Par exemple, un K+ capteur était produite en incorporant valinomycine dans une mince membrane. Plus de trente ans se sont écoulés avant le premier vrai biocapteur (ie : un capteur utilisant des molécules biologiques) émergé. En1956, Leland Clark a publié un document sur une électrode de détection d'oxygène. Ce dispositif est devenu la base pour un capteur de glucose développé en 1962 par Clark et collègue de Lyon qui a utilisé des molécules de glucose oxydase noyé dans une membrane de dialyse. L’enzyme fonctionné en présence de glucose pour réduire la quantité d'oxygène existant dans l'électrode à oxygène, concernant ainsi les niveaux d'oxygène pour la concentration de glucose. Ceci et similaires biocapteurs sont devenus connus comme enzyme électrodes, et sont encore en usage aujourd'hui [6]. En 1953, Watson et Crick ont annoncé leur découverte de la désormais familière structure en double hélice de molécules d'ADN et préparer le terrain pour la recherche sur la génétique qui continue de nos jours. Le développement des techniques de séquençage en 1977 par Gilbert et Sanger ont permis aux chercheurs de lire directement les codes génétiques qui fournissent des instructions pour la protéine synthèse. Cette recherche a montré comment l'hybridation de brins complémentaires d'oligonucléotides simples pourrait être utilisée comme base pour la détection de l'ADN. Deux autres développements ont permis la technologie utilisée dans moderne Biocapteurs basés sur l'ADN. 10 Chapitre1 : Notions Biologiques Elémentaires. Tout d'abord, en 1983 Kary Mullis a inventé la polymérase réaction en chaîne (PCR), un procédé d'amplification Concentrations d'ADN. Cette découverte a permis la détection de quantités extrêmement faibles d'ADN dans échantillons [7]. En 1986, Hood et collègues ont conçu une méthode pour étiqueter les molécules d'ADN avec des marqueurs fluorescents au lieu de marqueurs radioactifs, ce qui permet l'hybridation expériences à observer optiquement. Le rapide progrès technologique de la biochimie et champs de semi-conducteurs dans les années 1980 a conduit à la grande échelle développement de biopuces dans les années 1990. A ce moment, il est devenu évident que les biopuces sont largement une plate-forme technologique qui se composait de plusieurs séparé, encore composants intégrés. La composante réelle de détection (ou la "puce") est juste un morceau d'une analyse système complète. Transduction doit être faite pour traduire la réelle détection événement (liaison à l'ADN, oxydation ou réduction, etc.) dans un format compréhensible par un ordinateur, qui ensuite permet l'analyse et le traitement pour produire un supplément finale, la sortie lisible par l'homme. Les multiples technologies nécessaire pour faire un succès de la biopuce de détection la chimie, la formation de réseaux de micro, au traitement du signal, exige une approche multidisciplinaire vrai [5]. L'un des premières biopuces commerciales a été introduit par Affymetrix. Ces produits "GeneChip" contiennent des milliers de Capteurs d'ADN pour utilisation dans la détection de défauts, ou simple polymorphismes nucléotidiques (SNP), dans des gènes tels que p53 (à suppresseur de tumeur) et BRCA1 et BRCA2 (liée à cancer du sein). Les puces sont produites en utilisant techniques de microlithographie pour fabriquer traditionnellement utilisés circuits intégrés. Les biopuces sont une plate-forme qui nécessite, en plus de la technologie des microréseaux, transduction et traitement du signal technologies à la sortie des résultats des expériences de détection. Aujourd'hui, une variété de technologies de biopuces sont soit en de développement ou de commercialisation. De nombreux progrès continuent d'être réalisés dans la recherche de détection qui permet de nouvelles plates-formes pour être développé pour les applications émergentes. Diagnostic du cancer grâce à l'ADN est juste une ouverture du marché. Une variété de industries désirent actuellement la capacité à simultanément écran pour une large gamme d'agents chimiques et biologiques, avec des objectifs allant de tester les systèmes 11 Chapitre1 : Notions Biologiques Elémentaires. d'eau publics pour les agents de maladies au dépistage fret aérien pour explosifs. Les compagnies pharmaceutiques souhaitent combinatoire candidats-médicaments de l'écran contre la cible enzymes. Pour atteindre ces objectifs, ADN, ARN, protéines, et même de cellules vivantes sont employées que la détection médiatrice sur biopuces. De nombreux procédés de transduction on peut les utiliser notamment la résonance plasmonique de surface, la fluorescence et la chimioluminescence .les techniques de détection et de transduction choisis dépendent des facteurs tels que le prix, la durabilité, et la réutilisabilité. 12 Chapitre1 : Notions Biologiques Elémentaires. 1.6 Synthèse du chapitre Nous avons présenté dans ce chapitre des notions élémentaires en biologie qui sont les bases de notre sujet de recherche dans ce mémoire. La méthode PCR (polymerase chaine reaction) est l’une de ces notions .elle permet d’amplifier une seule copie de gène à un million d’exemplaires en quelques heures .cette méthode a révolutionné plusieurs domaine comme la biologie et la médecine. Ensuite nous avons donné une historique sur le développement des biopuces et les différents domaines qui ont contribués à l’apparition de cette biopuce. 13 Chapitre 2 Principe des biopuces. Sommaire Chapitre2 : Principe des biopuces. 2.1 Principe des puces à ADN ………………………………….………………..…….........16 2.1.1 La préparation des cibles et l’hybridation ………………….…..……..………....17 2.1.2 Acquisition et analyse des images …………………… ……..…………..…........17 2.1.3 Transformation des données ………………………………………….…….........18 2.2. Plateformes :………………………………………………………….…………..……..20 2.2.1 Technologie Agilent …………………………………………………..……........20 2.2.1.1 Avantages ………………………………………………..…………..….20 2.2.1.2 Inconvénients …………………………………………………….…. ....21 2.2.2 Technologie Affymetrix :…………………………………………….……… …...21 2.2.2.1 Avantages . ………………………………………………………… …....21 2.2.2.2 Inconvénients………………………………………………………… .…22 2.3 Domaines d’application ………………………………………….…..……………….… 22 2.3.1 L’environnement ………………………………………….…………………... ...22 2.3.2 Diagnostics médicaux ………………………………………………..……..…. ...23 2.3.3 Expertise médico-légale ………………………………………………… …….....23 2.4 Banques de données génomiques ……………………………………………….…..…..23 2.4.1 La MGED (Microarray Gene Expression Data Society) ………………….….......23 2.4.1.1 MIAME :…..…………… ……………………………………...……….......23 2.4.1.1.1 MAGE-ML :…………………………………………………...……..…...24 2.4.1.1.2 MAGE-TAB :………………………………………………..….…….......24 2.4.2 Gene Expression Omnibus (GEO) :…………………………………………….....24 2.4.3 ArrayExpress …………………………………………………….……………......25 2.5 Les outils de traitement :……………………………………………………………...27 2.5.1 Les outils d’analyse d’image :…………………………………………………......27 2.5.2 Langage R :……………………………………………………...…….……....….....28 2.5.3 Projet BioConductor ( 2000 ) :……………………………………….……..............28 2.6 Synthèse du chapitre :……………………………………………………………….…...30 Chapitre2 : Principe des biopuces. 2.1 Principe des puces à ADN La technologie des puces à ADN ou biopuces, connaît à l’heure actuelle un essor exceptionnel et suscite un formidable intérêt dans la communauté scientifique. Cette technologie a été développée au début des années 1990 et permet la mesure simultanée des niveaux d’expression de plusieurs milliers de gènes, voire d’un génome entier, dans des dizaines de conditions différentes, physiologiques ou pathologiques. L’utilité de ces informations est scientifiquement incontestable car la connaissance du niveau d’expression d’un gène dans ces différentes situations constitue une avancée vers sa fonction, mais également vers le criblage de nouvelles molécules et l’identification de nouveaux médicaments et de nouveaux outils de diagnostic. [10] Le fonctionnement des puces à ADN repose sur le principe de complémentarité des brins de la double hélice d’ADN et la propriété d’hybridation entre deux séquences complémentaires d’acides nucléiques. Une séquence d’ADN ou d’ARN peut donc servir de sonde pour capturer son complémentaire (cible) dans un mélange d’acides nucléiques Une puce ADN (appelée DNA microarray en anglais) est constituée de fragments d’ADN immobilisés sur un support solide, de manière ordonnée. Chaque emplacement de séquence est soigneusement repéré: la position (xi, yi) correspond au gène( i). Un emplacement est souvent appelé spot ou sonde. L’hybridation de la puce avec un échantillon biologique qui a été marqué par une substance radioactive ou fluorescente permet de quantifier l’ensemble des cibles qu’il contient; l’intensité du signal émis est proportionnel à la quantité de gènes cibles qu’il contient. [8][9]. Les différentes phases d’une analyse par puces ADN sont indiquées dans la figure 2.1. Préparation Hybridation Analyse d’image Normalisation Analyse des données Figure 2.1 – Etapes d’une analyse par puces à ADN. 16 Chapitre2 : Principe des biopuces. 2.1.1 La préparation des cibles et l’hybridation Pour comparer les niveaux d’expression dans deux échantillons biologiques ou deux conditions (référence et pathologique), la première étape consiste en la préparation du génome exprimé dans ces deux échantillons. Il s’agit d’extraire les ARNm d’un échantillon biologique à analyser et la qualité de l’extraction est bien sûr primordiale pour la réussite de l’hybridation qui va suivre. Une mauvaise purification peut conduire à une augmentation des bruits de fond sur la lame. La deuxième étape consiste à marquer les deux échantillons pour ensuite les hybrider en utilisant un four et à les nettoyer en utilisant une station de lavage. Les échantillons sont marqués par des substances fluorescentes (Cy3 et Cy5), c’est-à-dire qu’une culture est marquée avec un fluorochrome vert, tandis que la seconde est marquée avec un fluorochrome rouge. L’hybridation est ensuite réalisée sur une seule puce (simple marquage) ou sur deux puces (double marquage : un échantillon sur chaque puce). Les ADN marqués sont mélangés (cible) et placés sur la puce à ADN (sonde). Ce processus d’hybridation est réalisé dans une station fluidique (four) pour favoriser les liaisons entre séquences complémentaires [9]. La durée oscille entre 10 à 17 heures en milieu liquide à 60 degrés, en fait à cette température un fragment d’ADN simple brin ou d’ARN messager reconnaît son brin complémentaire (ADNc) parmi des milliers d’autres pour former un ADN de double brin (duplex ou double hélice). L’étape de nettoyage ou lavage des puces a pour but d’ôter de la puce des cibles non hybridées. La puce est lavée à plusieurs reprises afin qu’il ne reste sur la lame que les brins parfaitement appariés. 21.2 Acquisition et analyse des images Suite à l’hybridation, une étape de lecture de la puce permet de repérer les sondes ayant réagi avec l’échantillon testé. Cette lecture est une étape clé [9]. En effet, sa qualité conditionne de façon importante la précision des données et donc, la pertinence des interprétations. L’obtention des images est réalisée par lecture des puces sur des scanners de haute précision, adaptés aux marqueurs utilisés. Le procédé de détection combine deux lasers, pour exciter les fluorochromes Cy3 et Cy5. On obtient alors deux images dont le niveau de gris représente l’intensité de la fluorescence lue. Si on remplace les niveaux de gris par des niveaux de vert pour la première image et des niveaux de rouge pour la seconde, on obtient en les superposant une image en fausses couleurs composée de spots allant du vert au rouge quand un des fluorophores domine, en passant par le jaune (même intensité pour les deux 17 Chapitre2 : Principe des biopuces. fluorophores). Le noir symbolise l’absence de signal. L’intensité du signal de fluorescence pour chaque couple (gène, spot) est proportionnelle à l’intensité d’hybridation donc à l’expression du gène ciblé (voir figure 2.2). Les images sont traitées par des logiciels d’analyse qui permettent de mesurer la fluorescence de chaque spot sur la lame (estimant les niveaux d’expression pour chacun des gènes présents sur la puce), mais aussi de relier chaque sonde à l’annotation correspondante (nom de gêne, numéro de l’ADNc utilisé, séquence de l’oligonucléotide, etc.). Ainsi, pour chaque spot, l’intensité de chaque marqueur est calculée puis comparée au bruit de fond. 2.1.3 Transformation des données Les rapports des intensités de fluorescences en rouge et vert sont généralement utilisés pour mesurer une variation d’expression d’un gène entre deux conditions (référence et pathologique, par exemple). Les données d’intensité sont rarement manipulées sans transformation et la transformation la plus couramment employée est celle qui utilise le logarithme à base deux. Il existe plusieurs raisons pour justifier cette transformation. D’une part, la variation du logarithme des intensités est moins dépendante de la grandeur des intensités, et d’autre part, cette transformation permet de se rapprocher d’une distribution symétrique et d’obtenir une meilleure dispersion avec moins de valeurs extrêmes. La normalisation consiste à ajuster l’intensité globale des images acquises sur chacun des deux canaux rouge et vert, de manière à corriger les différences systématiques entre les échantillons sur la même lame, qui ne représentent pas de variations biologiques entre les échantillons et qui tendent à déséquilibrer le signal de l’un des canaux par rapport à l’autre. Cette procédure de normalisation est définie par les gènes de référence. Les gènes de référence en moyenne ne doivent pas changer d’expression entre deux conditions. La normalisation est effectuée à partir de toutes les sondes présentes sur le support pour éliminer les différences entre les différentes puces liées aux variations de quantité de départ, aux biais de marquage ou d’hybridation et aux variations du bruit de fond [12]. 18 Chapitre2 : Principe des biopuces. Figure 2.2 – Processus d’acquisition d’image. Présentation des données de puces à ADN : après les transformations décrites cidessus, les données recueillies pour l’étude d’un problème donné sont regroupées sous forme de matrice avec une ligne par couple (gène, sonde) et une colonne par échantillon (voir table 1.1) Chaque valeur de mij est la mesure du niveau d’expression du i−ème gène dans le j−ème échantillon, où i = 1, . . . , M et j = 1, . . . , N [11]. Echantillon 1 Gène id Echantillon 2 ………. Gène 2 ………. Gène 3 ………. …. …. …. …. Gène N m M1 m M2 …. ………. …. Gène 1 Echantillon M ………. m MN Table 2.1 – Matrice d’expression des gènes. 19 Chapitre2 : Principe des biopuces. Dans les étapes que l’on vient de voir, plusieurs d’entre elles peuvent être source d’imprécision ou d’erreurs dans les mesures obtenues. De plus, le coût d’une puce à ADN et le coût d’une analyse étant très élevé l’on ne dispose à l’heure actuelle que de quelques dizaines d’expériences pour l’étude d’un problème donné (une pathologie par exemple). Pourtant chaque expérience a permis de relever le niveau d’expression pour plusieurs milliers de gènes. Les matrices de données qui sont actuellement disponibles ont donc les caractéristiques suivantes: 1. Grande dimensionnalité due au nombre élevé de descripteurs (gènes) 2. Nombre limité d’échantillons. 2.2 Plateformes Il existe actuellement deux types de puces à ADN qui dominent le marché : – Les puces à ADNc qui fonctionnent avec des micros points contenant des fragments d’ADN sur un support de verre. La société Agilent est l’une des plus grandes industries qui les commercialisent. – Les puces à oligonucléotides qui reposent sur le principe de synthèse in situ de milliers de séquences distinctes d’oligonucléotides. La société Affymetrix est l’unique détenteur de cette technologie [25]. 2.2.1 Technologie Agilent Les puces à ADNc de la technologie Agilent ont été les premières puces à être développées. Le pionnier en la matière fut Patrick Brown et ses associés de l’université de Stanford. Elles sont construites grâce à des machines robots qui déposent des points appelés spots contenant des fragments d’ADN (50-150 m) dans une lamelle de verre. 2.2.1.1 Avantages L’avantage des puces à ADNc de Agilent Technologies est le faible coût qu’elles comportent grâce à un prix très abordable. L’utilisation de ces puces ne nécessite pas de matériel spécifique pour effectuer les expériences et son accessibilité facilite la récupération des résultats à des fins d’analyse. Notamment l’importation de données en utilisant des équipements universels existants dans la plupart des laboratoires de recherche. 20 Chapitre2 : Principe des biopuces. 2.2.1.2 Inconvénients Malgré leur utilisation très répandue, les puces à ADNc ont quelques inconvénients importants. En effet, avant la fabrication de la puce, il est nécessaire d’effectuer la synthèse, la préparation et la purification de l’ADN avant le dépôt des fragments. Ces étapes de préfabrication restent laborieuses et nécessitent une main-d’œuvre spécialisée. En outre, plusieurs dispositifs nécessaires pour l’impression des gènes sur le support alourdissent leurs coûts de fabrication. Il est également important de noter qu’au cours des expériences en laboratoires il se peut que des séquences similaires entre clones représentant une même famille de gènes puissent entraîner une défaillance dans la détection de gènes spécifiques et partiellement différents. Ce phénomène est connu sous le nom d’hybridation croisée. 2.2.2 Technologie Affymetrix Elles dérivent à l’origine d’un projet de séquençage par hybridation. Les sondes sont des oligonucléotides synthétisés par une technique de photolithographie. Cette technique consiste à diriger une lumière sur des sites spécifiques de la puce ce qui active la réaction d’oligosynthèse. On ajoute également des oligonucléotides dont la séquence varie pour une seule base pour confirmer que le signal obtenu pour chacun des gènes est bien spécifique. On hybride une seule expérience par puce et l’intensité de fluorescence mesurée par un scanner permet une mesure de l’abondance relative de chacun des ARNm présent dans l’échantillon biologique étudié [27]. 2.2.2.1 Avantages La synthèse d’oligonucléotides comprend plusieurs avantages notamment la vitesse, la spécificité et la reproductibilité. La vitesse de génération des données sur la puce est un avantage crucial, puisque il suffit juste de repérer les séquences de gènes d’intérêt de l’ADN, donc on ne perd pas de temps à la manipulation des ressources d’ADNc telles que la préparation et la détermination précise de la manipulation clones bactériens, les produits de la Réaction en Chaine par Polymérase (PCR) ou des ADNc, réduisant ainsi le risque de contamination. Cependant, avant la fabrication de la matrice, la connaissance préalable de la séquence du génome est nécessaire pour concevoir les ensembles d’oligonucléotides, et lorsque cela n’est pas disponible, d’autres méthodes d’impression du matériel génétique isolé peuvent être utilisées. 21 Chapitre2 : Principe des biopuces. 2.2.2.2 Inconvénients Il existe plusieurs inconvénients à l’utilisation de puces à oligonucléotides notamment les limites pratiques en termes de disponibilité et flexibilité de fonctionnement. D’abord la synthèse in situ d’oligonucléotides nécessite d’avoir des équipements spécialisés très coûteux pour procéder à l’hybridation, la coloration des étiquettes, le lavage ainsi que le processus de quantification. En outre, malgré leur essor rapide dans le marché, ce qui a contribué à la réduction de leur prix, celles-ci restent très coûteuses. Deuxièmement, bien que les séquences utilisées confèrent une bonne spécificité, elles réduisent la sensibilité et l’attachement des séquences à la puce en comparaison aux puces à ADNc. Cependant cette faible sensibilité de la puce est compensée par l’utilisation de multiples sondes. 2.3 Domaines d’application Les puces à ADN permettent des tests plus rapides, plus sensibles et plus spécifiques. En évitant certaines étapes préliminaires telle que la culture, cela permet d’obtenir un résultat en quelques heures là où plusieurs jours étaient nécessaires. Elles sont utiles dans divers domaines très important tels que l’environnement, les diagnostics médicaux les expertises médico-légales et bien d’autres domaines [24]. 2.3.1 L’environnement Les secteurs de la défense et de l’environnement font partie des diverses applications des puces à ADN, notamment pour la détection rapide et à bas coût de substances organiques, principalement des agents pathogènes dilués dans l’environnement. 2.3.2 Diagnostics médicaux La puce à ADN a encore un grand rôle à jouer dans une autre application des polymorphismes et de la détection banalisée de ceux-ci. Cela pourrait prévenir les prédispositions qu’a un patient à diverses maladies génétiques. La commercialisation de ces systèmes de petite taille, voire même portables pourrait être utilisée en hôpital et même par les médecins traitants. On attend que des labo-puces puissent faire en un temps réel et continu l’analyse de certains signes vitaux afin d’en prescrire immédiatement le traitement adéquat (par exemple le taux de glucose sanguin pour les diabétiques). 22 Chapitre2 : Principe des biopuces. 2.3.3 Expertise médico-légale Le but est l’identification d’un corps humain dans le cadre d’enquêtes policières ou judiciaires. Les analyses sur le terrain étant très souvent complexes ainsi que la confidentialité et le respect de la procédure judiciaire assez lourdes, il sera souhaitable d’avoir sur les lieux d’enquêtes des systèmes portables d’analyse de l’ADN, permettant ainsi d’affiner la recherche d’échantillons. 2.4 Banques de données génomiques 2.4.1 La MGED (Microarray Gene Expression Data Society) La MGED a initié le développement et la promotion de standard pour le stockage et le partage des données de puces à ADN basées sur l’expression des gènes et du résultat des études effectuées sur ces données. Parmi ces standards l’on peut citer le MIAME (Minimum Information About a Microarray Experiment), MIAME est un standard conceptuel décrivant l’information minimum requise pour une interprétation et une vérification propre des expériences des puces à ADN tandis que MAGEML et MAGE-TAB sont des standards définissant le format MIAME (conformité de la description des données et des expériences). 2.4.1.1 MIAME Le standard MIAME [12] requiert que les informations suivantes soient fournies pour les publications basées sur les expériences de puce à ADN : 1. Les données brutes résultant de l’analyse de l’image de chaque puce (fichiers CEL) 2. Les données finales après le prétraitement qui est la matrice d’expression des gènes 3. Les informations essentielles à propos de l’annotation de l’échantillon et des facteurs expérimentaux. 4. Le plan expérimental incluant les relations entre échantillons, puces et fichiers de données. 5. Une description de la conception de la puce (information sur les sondes et leurs numéros dans la base de données d’où elles proviennent). 6. Les protocoles de traitement expérimentaux des données. Le standard MIAME ne requiert pas que les données soient dans un format spécifique, il recommande toutefois l’utilisation du format MAGE-TAB ou MAGE-ML. 23 Chapitre2 : Principe des biopuces. 2.4.1.1.1 MAGE-ML Le MAGE-ML est un format de données basé sur XML permettant le partage de fichiers MIAME. C’est la représentation XML du Microarray Gene Expression Object Mode l (MAGE-OM) dans le cadre de l’initiative MGED. Malgré le fait qu’il est été utilisé par de nombreux outils et bases de données, il n’a pas été universellement accepté principalement à cause de sa complexité [14]. Il est toujours utilisé mais le nouveau format MAGE-TAB est recommandé en remplacement. 24.1.1.2 MAGE-TAB Le MAGE-TAB est un simple tableur (ou généralement un fichier texte délimité par des tabulations) permettant le partage de fichier MIAME. Il ne requière pas de connaissance particulière du XML et peut être utilisé à la place du format MAGE-ML.[13]. Il définit 3 types de fichiers nécessaires à la description d’une expérience de puce à ADN qui sont : 1. le fichier IDF (Investigation Description Format) qui donne des informations générales sur l’expérience, 2. ADF (Array Design Format) qui décrit le plan d’un type tableau utilisé dans une expérience, 3. SDRF (Sample and Data Relationship Format) contenant les informations nécessaires au MIAME ne se trouvant pas dans les autres formats et les données brutes et prétraitées. 2.4.2 Gene Expression Omnibus (GEO) Gene Expression Omnibus [8] est un entrepôt public à haute capacité de traitement des données génomique et protéomique, essentiellement MIAME. Il a été établi en 2000 au National Center for Biotechnology Information (NCBI). Les données expérimentales peuvent être soumises en remplissant un formulaire sur le web ou comme un paquet de fichiers, feuille de calcul, fichier texte SOFT (Simple Omnibus Format in Text) ou fichier XML MINiML(MIAME Notation in Markup Language). Les fichiers sont stockés sous la forme de 3 types d’enregistrement basiques : – Plateform : Description du tableau – Sample : Description d’un échantillon biologique et les résultats de son hybridation – Series : Description de l’expérience réalisée sur un groupe d’échantillon Basées sur les études expérimentales soumises, les données dans GEO sont organisées dans des objets de 24 Chapitre2 : Principe des biopuces. haut niveau représentés par le type Dataset(Jeu de données), qui est une collection d’échantillons biologiques comparables ayant été traités sur la même plateforme et dont les mesures sont les résultats de ce traitement et de calculs cohérents sur ce jeu de données, et Profils, qui correspond au niveau d’expression d’un gène dans tous les échantillons d’un jeu de données. 2.4.3 ArrayExpress ArrayExpress [15] est une base de données publique d’expérience de puce à ADN et de profils d’expression des gènes établie en 2002 à l’European Bioinformatics Institute(EBI). Elle est constituée de 3 composantes : – ArrayExpress repository : Qui est conforme au standard MIAME. Les expériences peuvent être soumises à cet entrepôt grâce à l’outil en ligne MIAMExpress ou en chargeant des tableurs (MAGE-TAB de préférence) – ArrayExpress Warehouse : qui est une base de données de gènes, sélectionnés à partir de l’ArrayExpress repository, dont les profils d’expression sont indexés. – ArrayExpress Atlas : Qui est une nouvelle base de données résumée pour interroger les gènes d’expression organisés et classés à travers de multiples expériences et conditions. Le scannage d’une puce permet de produire une image. Des repères sur la puce permettent de retrouver sur celle-ci, la localisation de chaque carré de sonde qui correspond à 1 secteur en ignorant les pixels externes. Un algorithme est utilisé pour calculer l’intensité de la cellule (secteur) à partir des pixels centraux (distribution des intensités par pixels : calcul du 75ème centile= intensité du spot). L’intensité moyenne est égale à la valeur d’expression relevée par la sonde qui est égale au fichier brute de données. Pour les puces Affymetrix, l’image d’une puce est stockée dans un fichier à l’extension DAT et les intensités des sondes obtenues à partir de l’analyse des images sont stockées dans un fichier à l’extension CEL. Certaines informations additionnelles telles que l’identifiant associant une sonde ou paire de sondes à un ensemble de sondes est stocké dans un fichier CDF. 25 Chapitre2 : Principe des biopuces. Figure 2.3 – Différents fichiers intervenant de l’importation aux résultats d’analyse. Le passage du fichier à l’extension DAT à celui à l’extension CEL nécessite l’utilisation de logiciel Affymetrix. A partir des données brutes récupérables dans de nombreux dépôts publiques, des prétraitements seront effectués sur celles-ci afin de les adapter à l’analyse souhaitée. Un fichier CEL (Cell Intensity File) sauvegarde les données d’intensité pour chaque sonde sans traitement obtenues à partir d’un fichier DAT. Une valeur représentative de l’intensité est sauvegardée pour chaque cellule (pixel) de l’image. Les deux dernières versions de ce fichier, la 3 et la 4 sont plutôt différentes. Dans la version 3, le format du fichier CEL est similaire à celui d’un fichier au format INI sous Windows. Il est divisé en section contenue entre une balise ouvrante et une fermante. Les différents noms de section sont "CEL","HEADER", "INTENSITY", "MASKS", "OUTLIERS" et "MODIFIED" et les données dans chaque section sont de la forme ETIQUETTE=VALEUR. La version 4 du fichier est sous la forme binaire et les valeurs sont sauvegardées dans le format little-endian. Dans cette version il n’existe pas de sections mais des items stockant approximativement les mêmes données que la version 3 en utilisant les types de données integer, DWORD, float et short. CDF (Chip Description File) est un fichier de description de puces Affymetrix qui décrit l’agencement d’un tableau GeneChip Affymetrix. Il contient les informations concernant les caractéristiques de conception du tableau dela sonde, l’utilisation et le contenu de la sonde, et 26 Chapitre2 : Principe des biopuces. les paramètres d’analyse et de scannage. Il existe 2 types de formats pour ce fichier. Le premier est un fichier texte au format ASCII utilisé par les logiciels MAS et GCOS1.0 et le second est un fichier au format XDA utilisé par les anciennes versions de GCOS. Le fichier texte au format ASCII est similaire à un fichier texte à l’extension INI sous Windows. Il est divisé en sections suivant le même principe que les fichiers CEL et les différentes sections sont : "CDF", "Chip","QCI", "UnitJ" et "UNITJ_BlockK". Le format XDA quant à lui est un fichier binaire permettant un accès rapide aux données tout en minimisant l’espace de stockage. Il utilise le format little-endian pour stocker les valeurs dans ce fichier. Il a la même présentation que les fichiers CEL au format binaire et utilise les mêmes types de données. 2.5 Les outils de traitement 2.5.1 Les outils d’analyse d’image Le principe général de l’analyse d’image est de convertir l’image en valeurs numériques quantifiant l’expression des gènes. Il existe des logiciels d’analyse d’image comme : ScanAlyze, Genepix Pro (voir Figure2.4). Figure 2.4 visualisation d’un scan à l’aide de GenePix Pro 27 Chapitre2 : Principe des biopuces. 2.5.2 Langage R D’après The Bioinformatics Organization [26] , R est actuellement l’outil le plus utilisé pour le traitement numérique des données biologiques. R est un outil d’analyses statistiques et graphiques qui possède son propre langage de programmation. Nommé ainsi en référence à ses deux auteurs, Ross Ihaka et Robert Gentleman. R est distribué gratuitement suivant les termes des licences publiques (GPL). Les codes sources et modules d’applications sont donc librement mis à la disposition de l’ensemble de la communauté scientifique. Dans un premier temps développé pour les systèmes d’exploitation libres (et gratuits) à savoir UNIX et Linux, R est très vite devenu disponible pour les systèmes d’exploitation Windows et Mac-OS. Le noyau de R est implémenté essentiellement en langage C et FORTRAN. Depuis 1997, un groupe de développeurs (R Core Team), s’attache au maintien du bon développement des différentes versions de l’outil qui ne cesse de s’améliorer en termes de fonctionnalités graphiques et domaines d’applications de l’exploitation des données géologiques à la génomique. 2.5.3 Projet BioConductor ( 2000 ) Compte tenu des propriétés de R en matière de fonctions, puissance de calcul ainsi que le besoin croissant d’outils mathématiques pour l’analyse des données biologiques, des développeurs au sein de la communauté R ont proposé le projet BioConductor. Figure 2.5 – Page d’accueil du projet BioConductor. BioConductor est une initiative de collaboration entre statisticiens, mathématiciens, biologistes et développeurs afin de créer des outils informatiques (algorithmes, logiciels) pour résoudre des problèmes de biologie et de bioinformatique. Les principaux buts de ce projet 28 Chapitre2 : Principe des biopuces. sont le développement, en collaboration, de logiciels innovants ainsi que leur vaste diffusion et utilisation, pour une reproductibilité des résultats de recherche. Né en 2000, BioConductor, associé à R, reçoit en 2002 le titre de Insightful Innovation Award Open Source Open Development SoftwareProject. En outre, les librairies dédiées à l’analyse des données de génomique disponibles dans le projet BioConductor permettent non seulement l’analyse des données de puces à ADN (e.g. librairies Affy, marray, limma) mais aussi des expériences SAGE (SAGElyzer), de la spectrométrie de masse (PROcess) ou encore l’annotation des gènes (GOstats). 29 Chapitre2 : Principe des biopuces. 2.6 Synthèse du chapitre Nous avons présenté dans ce chapitre les différentes étapes d’une analyse par puce à ADN, telles que la préparation des cibles et l’hybridation, acquisition et analyse des images et transformation des données. Nous avons aussi présenté les différentes banques de données génomiques publiques et les différents outils de traitement tels que les outils d’analyse des images et les outils de traitement numérique des données biologiques. 30 Chapitre 3 Etapes d’analyse des données de biopuces . Sommaire Chapitre3 : Etapes d’analyse des données de biopuce 3.1 Prétraitement des données (Preprocessing)……………………………………………. 33 3.1.1 Etapes du prétraitement des données …………………………………..……...33 3.1.1.1 Correction du bruit de fond (Background Correction)…………………… 33 3.1.1.2 Normalisation…………………………………………………………….. 33 3.1.1.2.1 Normalisation des puces Affymetrix ……………………………....34 3.1.1.2.1.1 Normalisation des quantiles (quantiles normalization) …34 3.1.1.3 Sommarisation……………………………………………………………..36 3.2 Sélection des attributs pour traitement des données …………………………...…….36 3.3 Synthèse du chapitre ……………………………………………………………....…38 Chapitre3 : Etapes d’analyse des données de biopuces 3.1 Prétraitement des données (Preprocessing) La technique utilisée avec les puces à ADN est soumise à de nombreuses variations expérimentales qui rendent impossible l’exploitation directe des résultats. Pour ne garder que Les variations réelles entre les différents échantillons dues aux différences de traitement qu’ils ont subis, le seul moyen est de procéder à un prétraitement des données et une normalisation des données pour éliminer ces différences. Cette étape permet d’adapter les données au type d’analyse souhaité. 3.1.1 Etapes du prétraitement des données 3.1.1.1 Correction du bruit de fond (Background Correction) Après l’hybridation, une puce à ADN est scannée pour pouvoir générer des fichiers où les résultats de l’hybridation sont traduits numériquement (Fichiers CEL). On obtient dans ces fichiers une quantité énorme d’information. On a pour chaque gène : la moyenne des intensités de tous les pixels sur la zone correspondante au gène, la médiane de ces intensités, l’écart-type de ces intensités et le nombre de pixels dans la zone considérée. Différentes méthodes ont été proposées pour cette étape ; elles peuvent être rangées en trois catégories : 1. la moyenne ou la médiane des valeurs d’intensités des sondes comme estimateur du bruit de fond global (Constant Background Correction). 2. les pixels se trouvant près du spot pour estimer le bruit de fond local (Local Background Correction). Un problème avec cette catégorie de méthodes est que les valeurs d’intensités utilisées comme estimateurs de bruit de fond local peuvent être supérieures à celles des spots. Ce qui peut donner des intensités négatives ou fausses. 3. des filtres non-linéaires pour estimer le bruit de fond (MO – Morphological Opening – Soille). Les méthodes de cette catégorie semblent meilleures par rapport à celles des deux premières catégories. Cela est dû à leurs robustesses face aux artefacts locaux et variations. [21]. 3.1.1.2 Normalisation Il est nécessaire d’effectuer une normalisation afin de s’assurer que les différences observées dans les intensités sont dues à des différences réelles d’expression et non à des artefacts expérimentaux. Lors de la fabrication de puces à ADN, les sources de variabilité sont nombreuses. On peut citer, l’amplification des sondes par la technique PCR et leur positionnement sur la puce, l’hybridation sonde/cible, le nettoyage et le séchage de puces ect.. 33 Chapitre3 : Etapes d’analyse des données de biopuces Le but de la normalisation est de corriger les différences systématiques entre les mesures sur la même puce qui ne représentent pas de véritables variations biologiques. Elle permet la comparaison de plusieurs réplicas d’une même expérience et se focalise sur les erreurs systématiques, qui contribuent à sur ou sous évaluer les valeurs mesurées, plutôt que sur les erreurs stochastiques. Avant l’application d’une transformation logarithmique, la plupart des intensités mesurées sont faibles, la transformation logarithmique permet de recentrer la distribution et de la rendre symétrique, ce qui facilite l’utilisation des statistiques. A noter que la transformation logarithmique à base 2 est la plus utilisée. Figure 3.1 –Nuage de points sur une puce à ADN avant et après normalisation logarithmique. 3.1.1.2.1 Normalisation des puces Affymetrix Dans le cas des puces à oligonucléotides [17], comme les puces Affymetrix, la normalisation est réalisée entre des répétitions de lames ou l’ensemble des lames d’une ou de plusieurs expériences. On parle souvent de normalization between-array. La normalisation la plus utilisée est la normalisation des quantiles. 34 Chapitre3 : Etapes d’analyse des données de biopuces 3.1.1.2.1.1 Normalisation des quantiles (quantiles normalization) Pour cela, il existe une méthode complète dite de centralisation permettant à la fois de normaliser et de calibrer les données de façon à permettre les comparaisons inter-lames. Cette méthode non paramétrique appelée aussi “ normalisation des quantiles “ suppose que la distribution de l’abondance des gènes est presque la même dans tous les échantillons. L’algorithme comporte plusieurs étapes : On trie les gènes par colonnes selon leurs intensités. 1. On calcule la moyenne de chaque ligne. 2. On remplace les valeurs de chaque élément ligne par la moyenne correspondante. 3. On redistribue les valeurs nouvelles selon l’ordre d’origine des intensités. Figure 3.7 – Nuage de points avant et après normalisation sur 4 puces Affymetrix. (a) Nuage de points avant normalisation.(b) Nuage de points après normalisation. 35 Chapitre3 : Etapes d’analyse des données de biopuces 3.1.1.3 Sommarisation C’est une étape propre à toute plateforme pour laquelle un même transcrit est sondé par plusieurs sondes que l’on doit résumer en une seule valeur d’expression. 3.2 Sélection des attributs pour traitement des données Le principe de la sélection des attributs consiste à évaluer chaque attribut pour lui assigner un score de pertinence qui permet un classement des attributs. Les attributs les mieux classés c’est-à-dire les plus pertinents seront sélectionnés pour la phase du traitement. L’avantage de la sélection est qu’elle peut être utilisée lorsqu’on travaille avec un très grand nombre d’attributs car elles sont de complexité raisonnable. Parmi les méthodes de sélection est celles dites méthodes de filtres ,nous détaillons dans la suite de cette section les critères de filtre qui ont été utilisés dans le domaine de la bioinformatique pour la sélection de gènes. La mesure de pertinence utilisée dans une méthode filtre peut être une mesure statistique classique telle que la t-statistique et le test de Fisher. Certaines mesures de filtrage ont été proposées spécifiquement pour la sélection de gènes telles que B/W ou SNR . a) t-statistique : où nk , x̄k et sk2 sont la taille, la moyenne la variance des classes k = 1, 2.pour chaque gène une t − valeur est calculée et si on souhaite sélectionner p gènes, on retient p/2 gènes avec les plus grandes valeurs positives (gènes fortement exprimés dans la classe 1) et les p/2 gènes avec les plus “grandes” valeurs négatives (gènes fortement exprimés dans la classe 2). b) Fisher Le test de Fisher est défini comme suit : où x̄k et sk2 sont la moyenne et l’écart-type de l’attribut pour la classe k = 1, 2.un score important indique donc que les moyennes des 2 classes sont significativement différentes. 36 Chapitre3 : Etapes d’analyse des données de biopuces c) BW Le score discriminant BW est basé sur le rapport entre dispersion entre classes et dispersion intra-classes pour un attribut j , ce rapport est obtenu comme suit : ∑i ∑j I(yi=k)( x̄k j- x̄ j )2 BW(j)= ∑i ∑j I(yi=k)( x̄i j- x̄k j )2 où x̄ j et x̄ kjdénotent respectivement la moyenne d’un attribut j à travers tous les échantillons et à travers les échantillons appartenant à la classe k seulement. e) SNR ou S/N Ce critère est défini comme suit : où x̄ kj , skjdénotent la moyenne et l’écart-type de l’attribut j pour les échantillons de classes k = 1, 2. De grandes valeurs de |P (j )| indiquent une forte corrélation entre les valeurs de l’attribut et la distinction de classes[1]. 37 Chapitre3 : Etapes d’analyse des données de biopuces 3.3 Synthèse du chapitre Nous avons vu dans ce chapitre les différentes étapes du prétraitement des données y compris : la correction du bruit de fond et la normalisation. Puis nous avons présenté les différents critères statistiques utilisés pour la sélection des gènes comme le test de Fisher et le test BW. 38 Chapitre 4 Classification des données de biopuces. Sommaire Chapitre 4 : Classification des données de biopuces. 4.1 Classification …………………………………………………………………………41 4.1.1 Buts et modalités de la classification ………………………………………………41 4.1.2 La classification, un domaine multidisciplinaire………….……….……..……..….42 4.1.2 .1 Classification et statistique ………………………………………………..…..42 4.1.2.2 Classification et programmation mathématique………………………...……. 43 4.1.2.3 Classification et apprentissage automatique …………………………………..43 4.1.2.4 Classification et aide multicritère à la décision ……………………………….44 4.2 K-ppv………………………...………………………………………...……………….. 44 4.3 Algorithmes génétiques …………………………………………………………………45 4.3.1 Représentation des solutions ………………………………………………………..46 4.3.2 Fonction d’évaluation………………………………………………………………. 46 4.3.3 Opérateurs génétiques ………………………………………………………….…47 4.3.3.1 L’opérateur de sélection ……………………………………………………..47 4.3.3.2 L’opérateur de croisement ………………………………………………....51 4.3.3.3 L’opérateur de mutation…………………………………………………...... 51 4.3.4 Phase de remplacement………………………………………………………….… 51 4.4 Algorithme génétique à double explorations…………………………………..…..…. 52 4.5 Synthèse du chapitre…………………………………………………………….….... 53 Chapitre 4 : Classification des données de biopuces. 4.1 Classification La classification est l’une des techniques les plus anciennes d’analyse et de traitement de données. Plusieurs définitions ont été proposées par les spécialistes du domaine : Selon [35]: "Effectuer une classification, c'est mettre en évidence des relations entre des objets, et entre ces derniers et leurs paramètres". Un problème de classification selon [36]: "consiste à affecter des objets, des candidats, des actions potentielles à des catégories ou des classes prédéfinies". [37] ont un point de vue axé sur l'apprentissage, ils définissent la classification par : "La classification est l'action de regrouper en différentes catégories des objets ayant certains points communs ou faisant partie d'un même concept, sans avoir connaissance de la forme ni de la nature des classes au préalable, on parle alors de problème d'apprentissage non supervisé ou de classification automatique, ou l'action d'affecter des objets à des classes prédéfinies, on parle dans ce cas d'apprentissage supervisé ou de problème d'affectation" . Retenons aussi la définition de [38]: "Le processus de classification cherche à mettre en évidence les dépendances implicites qui existent entre les objets, les classes entre elles, les classes et les instances. La classification recouvre les processus de reconnaissance de la classe d'un objet, et l'insertion éventuelle d'une classe dans une hiérarchie. Ce mode de raisonnement permet de reconnaître un objet en identifiant ses caractéristiques, relativement à la hiérarchie étudiée. La classification fait intervenir un processus de décision d'appartenance" 4.1.1 Buts et modalités de la classification La classification repose sur des objets à classer. Les objets sont localisés dans un espace de variables (ont dit aussi attributs, caractéristiques ou critères). Il s’agit de les localiser dans un espace de classes. Ce problème n’a de sens que si on pose l’existence d’une correspondance entre ces deux espaces. Résoudre un problème de classification, c’est trouver une application de l’ensemble des objets à classer, décrits par les variables descriptives choisies, dans l’ensemble des classes. L’algorithme ou la procédure qui réalise cette application est appelé classifieur. 41 Chapitre 4 : Classification des données de biopuces. Nous appellerons : classificateur : une règle établie (estimée) de classification, c’est-à-dire une fonction sur l’espace des caractéristiques vers l’espace des classes ; classification : la construction d’un classificateur ; classement : la mise en œuvre d’un classificateur existant. Généralement, l’inférence statistique traditionnelle peut couvrir plusieurs problématiques : exploratoire : déceler des relations hypothétiques ; prédictive : valider la performance globale d’un système de relations ; explicative : valider des composantes détaillées d’un système de relations· comprendre leurs contributions à ce système. On retrouve des distinctions voisines en classification : On appelle classification automatique, ou non supervisée, un ensemble de problématiques où l’espace des classes n’est pas spécifié à l’avance. Il s’agit d’identifier, voire de construire, un système de classes sur la base d’observations dans l’espace des caractéristiques. On appelle classification supervisée un contexte où un ensemble de classes (et une structure sur cet ensemble) est spécifié à l’avance. 4.1.2 La classification, un domaine multidisciplinaire La classification a fait l’objet de plusieurs travaux dans différents domaines de recherche. Nous allons en particulier discuter des liens que la classification entretient avec la statistique, la programmation mathématique, l’apprentissage automatique et l’aide multicritère à la décision. 4.1.2 .1 Classification et statistique Les méthodes statistiques sont les techniques les plus anciennes pour la résolution des problèmes de classification supervisée. Elles sont issues de l’analyse des données : Elles supposent l’existence d’un modèle probabiliste décrivant les données. 42 Chapitre 4 : Classification des données de biopuces. L’objectif de ces méthodes est ainsi de caractériser ce modèle. La littérature nous offre une multitude de méthodes et d’applications statistiques [39]. L’objectif de ce type de techniques est d’arriver à classer de nouveaux cas, en réduisant le taux d’erreurs de classification. Selon [40] , ces méthodes ont fait leurs preuves pour des données assez simples. Avec le développement de la théorie statistique d’apprentissage, de nouvelles méthodes de classification s’appuyant sur la théorie statistique et se basant sur l’apprentissage sont nées. 4.1.2.2 Classification et programmation mathématique La programmation mathématique dans un premier temps, a été utilisée en classification automatique [41] . Le problème de partitionnement est souvent formulé comme un programme mathématique. Le nombre de classes de la partition est donné à l’avance. L’objectif à optimiser peut refléter un souci d’homogénéité intra-classe ou de différenciation interclasses. La résolution fait appel à une variété de techniques de programmation mathématique discrètes, exactes ou heuristiques. En classification supervisée, la programmation mathématique a été utilisée pour optimiser la capacité prédictive du classificateur à construire. Des formes d’approximations très variées ont été proposées, incorporant parfois une mesure d’erreurs empirique, parfois des repères paramétrés, etc. Toutefois, la contribution de la programmation mathématique est beaucoup plus importante en classification automatique qu’en classification supervisée. 4.1.2.3 Classification et apprentissage automatique : [42] définit l’apprentissage automatique par «une tentative de comprendre et de reproduire l’habileté humaine d’apprendre de ses expériences passées et de s’adapter dans les systèmes artificiels». Par apprentissage, on entend la capacité de généraliser et de résoudre de nouveaux cas à partir des connaissances mémorisées et des expériences réussies dans le passé. Appelé souvent la branche connexionniste de l’intelligence artificielle, l’apprentissage automatique puisait initialement ses sources en neurosciences. Au cours des dernières années, il s’est détaché de ses origines pour faire appel à des théories et outils d’autres disciplines : théorie de l’information, traitement du signal, programmation mathématique, statistique . Des préoccupations convergentes en analyse de données ont donné naissance à la théorie de l’apprentissage statistique [43]. 43 Chapitre 4 : Classification des données de biopuces. Il existe trois principales tâches d’apprentissage automatique : apprentissage supervisé, apprentissage non supervisé et apprentissage par renforcement. Pour un problème de classification, un système d’apprentissage supervisé permet de construire une fonction de prise de décision (un classificateur) à partir des actions déjà classées (ensemble d’apprentissage), pour classer des nouvelles actions. Dans le cas de l’apprentissage non-supervisé, on dispose d’un nombre fini de données d’apprentissage sans aucune étiquette. L’apprentissage par renforcement a la particularité que les décisions prises par l’algorithme d’apprentissage influent sur l’environnement et les observations futures [42]. La classification compte parmi les plus grandes réussites de l’apprentissage automatique. plusieurs applications illustrent la diversité des domaines d’utilisation : moteur de recherche, reconnaissance de la parole, reconnaissance de formes, reconnaissance de l’écriture manuscrite, aide au diagnostic médical, analyse des marchés financiers, bioinformatique, sécurité des données, etc. 4.1.2.4 Classification et aide multicritère à la décision Les méthodes de classification multicritère partent en général de classes prédéfinies, elles relèvent donc de l’apprentissage supervisé [44] ; [36] mais avec une composante contextuelle qui peut être importante. C’est pourquoi elles se distinguent par des modalités particulières d’apprentissage. La classification en aide multicritère à la décision se situe dans le cadre de la problématique du tri. Selon [45] «Elle consiste à poser le problème en terme du tri des actions par catégorie». Les actions sont évaluées sur plusieurs critères potentiellement conflictuels et non commensurables. Contrairement aux autres approches de classification, l’aide multicritère à la décision ne cherche pas uniquement à développer des méthodes automatiques pour analyser les données afin de les classer. Dans le cadre de l’affectation multicritère, les préférences du décideur (l’humain) sont aussi prises en compte. Ainsi, selon [36] «L’objectif des méthodes de classification multicritère n’est pas de décrire au mieux les données, mais de respecter un ensemble de préférences qui auront été articulées auparavant». 4.2 k-PPV L’algorithme des k plus proches voisins (noté k-PPV) [40] ,[39],[46] est une méthode basée sur la notion de proximité (voisinage) entre exemples et sur l’idée de raisonner à partir 44 Chapitre 4 : Classification des données de biopuces. de cas similaires pour prendre une décision. Autrement dit des entrées xi semblables devraient avoir des valeurs yi semblables. Le principe est le suivant : on note x un nouvel exemple décrit par un vecteur de p attributs. On trouve alors, parmi l’ensemble d’exemples d’apprentissage, les k plus proches voisins deux et on associe à x la classe majoritaire parmi ses k voisins lui ressemblant le plus dans la base d’apprentissage. Cette méthode dépend donc des trois éléments suivants: 1. Le nombre de voisins retenus. 2. La mesure de distance entre exemple. 3. La combinaison des classes. Le résultat dépend du réglage de ces paramètres. Pour le premier critère, on utilise généralement un nombre de voisins compris entre 1 et 7. Pour le deuxième paramètre, la méthode nécessite une métrique pour mesurer la proximité entre l’exemple à classer x et chacun des exemples de l’ensemble d’apprentissage. Lorsque les attributs sont numériques la distance euclidienne est généralement utilisée. Le troisième paramètre indique de quelle manière on combine les valeurs associées aux voisins pour obtenir la valeur associée à x. pour la classification, la classe retenue pour x est la classe majoritaire chez ses voisins. La méthode est simple puisqu’il n’y a pas besoin d’apprentissage d’un modèle de classification et son pouvoir prédictif est souvent bon. Mais la performance de cette méthode diminue lorsque la dimension augmente, puisque pour chaque nouvelle classification, il est nécessaire de calculer toutes les distances de x à chacun des exemples d’apprentissage. De plus, la performance dépend fortement de k, le nombre de voisins choisi et il est nécessaire d’avoir un grand nombre d’observations pour obtenir une bonne précision des résultats. 4.3 Algorithmes génétiques Les algorithmes génétiques sont des algorithmes de recherche inspirés des mécanismes de l’évolution naturelle des êtres vivants et de la génétique. John H. Holland a exposé ses premiers travaux sur les algorithmes génétiques en 1962. Les algorithmes génétiques partent de l’idée d’utiliser les principes des processus d’évolution naturelle en tant que technique d’optimisation globale. Dans l’évolution naturelle, le problème auquel chaque espèce est confrontée est de chercher à s’adapter à un environnement complexe et généralement non statique. Très schématiquement, la connaissance acquise par chaque espèce est codée dans les chromosomes de ses membres. Lors des reproductions sexuelles, les contenus des chromosomes sont mélangés, modifiés et transmis aux descendants par un 45 Chapitre 4 : Classification des données de biopuces. certain nombre d’opérateurs génétiques : la mutation, qui se traduit par l’inversion d’une faible partie du matériel génétique, et le croisement qui échange certaines parties des chromosomes des parents. Cette particularité de l’évolution naturelle : la capacité d’une population à explorer son environnement en parallèle et à recombiner les meilleurs individus entre eux, est empruntée par les algorithmes génétiques. Pour un problème d’optimisation donné, un individu représente un point de l’espace de recherche, une solution potentielle. On lui associe la valeur du critère à optimiser, son adaptation. On génère ensuite de façon itérative des populations d’individus sur lesquelles on applique des processus de sélection, de croisement et de mutation. La sélection a pour but de favoriser les meilleurs éléments de la population pour le critère considéré (les mieux adaptés), le croisement et la mutation assurent l’exploration et exploitation de l’espace de recherche. [1]. 4.3.1 Représentation des solutions Un aspect important des algorithmes génétiques est la façon dont sont codées toutes les solutions. Les algorithmes génétiques établissent une analogie entre l’ensemble de solutions d’un problème et l’ensemble d’individus d’une population naturelle, en codant l’information sur chaque solution. Une solution s est fréquemment codée par une chaîne de bits de longueur n i.e. s[i] ∈ {0, 1}, ∀ = 1, ..., n. 4.3.2 Fonction d’évaluation : La fonction d’évaluation, aussi appelée fonction d’aptitude, est un facteur important des algorithmes génétiques. Elle évalue chaque individu d’une population et donne la qualité de chaque individu par rapport au problème posé. Celle-ci doit prendre en compte les bons paramètres du problème, par exemple, il faut une fonction d’évaluation qui augmente ou diminue progressivement à mesure qu’on s’approche de la bonne solution pour guider le processus de recherche. C’est au cours de la phase d’évaluation, où l’ensemble des individus d’une population sont évalués (notamment ceux ayant subi une mutation ou un croisement), que l’on peut quantifier leur degré d’aptitude. 46 Chapitre 4 : Classification des données de biopuces. Figure 4.1 – Éléments d’un algorithme génétique 4.3.3 Opérateurs génétiques : A chaque génération, les opérateurs génétiques travaillent sur les individus formant la population. On différencie quatre opérateurs: opérateur d’initialisation, opérateur de sélection, opérateur de croisement et opérateur de mutation. L’opérateur d’initialisation Habituellement, génère un ensemble de plusieurs solutions. Cet ensemble constitue ce qui est appelé la population initiale. Souvent, la population initiale est générée de manière aléatoire afin de couvrir le mieux possible l’espace des solutions. [29]. 4.3.3.1 L’opérateur de sélection : La sélection joue un rôle très important dans les algorithmes génétiques: d’une part, pour diriger les recherches vers les meilleurs individus et d’autre part, pour maintenir la diversité des individus dans la population. Elle est liée au compromis entre la vitesse de convergence élevée et une forte probabilité de trouver un optimum global dans le cas d’un problème d’optimisation. Si la sélection choisit seulement le meilleur individu, la population convergera rapidement vers cet individu. La sélection doit donc s’intéresser aux meilleurs 47 Chapitre 4 : Classification des données de biopuces. individus tout en acceptant certains individus de moins bonne qualité. Plusieurs formes de sélection sont possibles, les plus connues sont : – sélection linéaire par rapport au rang – sélection uniforme par rapport au rang – sélection proportionnelle – sélection proportionnelle à reste stochastique – sélection stochastique universelle – sélection par tournoi. Dans la sélection linéaire par rapport au rang, le rang i de chaque individu Ii dans la population est ∀i ∈ 1, ..., N : rang(Ii ) = i. Alors, un individu est choisi aléatoirement avec une probabilité proportionnelle à son rang : avec η− = 2 − η+ et 1 ≤ η+ ≤ 2. Cette sélection n’utilise pas directement la performance des individus et donc un réajustement d’adaptation n’est pas nécessaire. La sélection uniforme par rapport au rang consiste à choisir de façon équiprobable les individus de rang inférieur ou égal à µ avec µ ≤ N . Les autres individus sont exclus de la population et ne peuvent participer à la reproduction. La probabilité de sélection s’exprime par: La sélection proportionnelle, appelée aussi roulette (RWS) ou roue de la fortune consiste à dupliquer chaque individu proportionnellement à sa valeur d’adaptation. On effectue, en quelque sorte, autant de tirage avec remises qu’il y a d’éléments dans la population. Ainsi, dans le cas d’un codage binaire, la qualité d’adaptation d’un individu particulier étant f (Ii), la probabilité avec laquelle il sera réintroduit dans la nouvelle population de taille N est : 48 Chapitre 4 : Classification des données de biopuces. Les individus ayant une grande qualité ont donc plus de chance d’être sélectionnés. On parle alors de sélection proportionnelle. L’inconvénient majeur de cette méthode repose sur le fait qu’un individu n’étant pas le meilleur peut tout de même dominer la sélection. Elle peut aussi engendrer une perte de diversité par la domination d’un super individu. Un autre inconvénient est sa faible performance vers la fin de la recherche quand l’ensemble des individus se ressemblent. Dans la sélection proportionnelle à reste stochastique (SRS), le nombre de copies attendu pour chaque individu Ii est directement fixé par le rapport de sa performance avec la performance moyenne de la population : Dans un premier temps, on n’obtient que individus et il manque (N −α). On complète la population en associant à chaque individu Ii une probabilité d’être sélectionné égal à: Le nombre de copies à compléter pour chaque individu est: Comme pour la sélection précédente RWS, un réajustement préalable de la fonction d’adaptation est également indispensable pour cette sélection. Contrairement à la sélection proportionnelle RWS où il faut N tirages aléatoires pour sélectionner N individus, la sélection stochastique universelle (SUS) ne nécessite qu’un seul tirage pour choisir tous les parents d’une génération. à partir d’une variable aléatoire θ, prise uniformément dans l’intervalle .on définit deux séries de pointeurs pu et pv de la manière suivante: 49 Chapitre 4 : Classification des données de biopuces. le pseudo code de la sélection stochastique universelle est donné ci-après: u=1 ; v=1 ; pour i=1..N faire tant que pu < pv faire Sélectionner Ii ; Incrémenter u ; Fin . Fin. Cette sélection est également précédée d’un réajustement de la fonction d’adaptation. Lors de la sélection par tournoi, k individus de la population sont choisis aléatoirement et celui ayant la performance la plus élevée sera retenu pour participer à la reproduction. L’opération est répétée autant de fois qu’il y a d’individus à sélectionner. La probabilité qu’un individu de rang i soit sélectionné après compétition est donnée Ci-après Où Cpm désigne la combinaison de m individus p à p sans répétitions, soit le nombre de groupes de p individus différents qu’on peut former avec m individus sans tenir compte de l’ordre des individus. Dans le cas particulier du tournoi de deux individus (k = 2), qualifié de tournoi binaire probabiliste, la probabilité de sélection citée précédemment se réduit à : La sélection par tournoi de deux individus est donc équivalente à la sélection linéaire par rapport au rang avec η+ = 2. 50 Chapitre 4 : Classification des données de biopuces. 4.3.3.2 L’opérateur de croisement : L’opérateur de croisement, appelé aussi recombinaison, est l’instrument majeur des innovations dans l’algorithme génétique .Les individus potentiels existant au sein d’une population génétique se croisent. Cette opération génère un (ou plusieurs) nouvel individu qui peut se rapprocher de la solution optimum. Les opérateurs de croisement les plus connus sont: – opérateur de croisement à un point. Dans cet opérateur deux individus se croisent et s’échangent des portions de leur information en un seul point. – opérateur de croisement à multiples points. Contrairement à l’opérateur précédent, il y a au moins deux points de croisement (dans tous les deux opérateurs, un point de croisement est aléatoirement choisi). – opérateur de croisement uniforme. Cet opérateur décide pour chaque bit/gène avec probabilité fixée, indépendamment, si on prendra celui de l’un ou l’autre parent. 4.3.3.3 L’opérateur de mutation : L’opérateur de mutation sur un individu échange aléatoirement un bit pour son complément. La mutation vise à modifier de façon aléatoire une partie de la population, elle provoque l’auto-adaptation des individus. Le taux de mutation est généralement faible Ce taux faible permet d’éviter une dispersion aléatoire de la population et n’entraîne que quelques modifications sur un nombre limité d’individus. [30]. 4.3.4 Phase de remplacement : Une fois qu’on a généré des nouveaux individus par croisement et par mutation, il faut décider de la constitution de la nouvelle population .Le remplacement décide quels individus conserver. Il existe différents schémas de remplacement. Après avoir évalué les nouveaux individus générés, on applique un de ces schémas. Nous allons présenter brièvement ces schémas, les plus communs : – remplacement élitiste – remplacement du plus mauvais – remplacement par descendance. Le remplacement élitiste classique, couramment employé, garantie la survie du meilleur parent à chaque génération. Le remplacement du plus mauvais présente des variantes qui consiste à remplacer les individus anciens les plus mauvais par des nouveaux individus. Dans le remplacement par 51 Chapitre 4 : Classification des données de biopuces. descendance, appelé aussi générationnelle, il n’y a aucune compétition entre les parents et les enfants. La population de la nouvelle génération est obtenue par descendance, c’est-à-dire, les enfants remplacent automatiquement leurs parents, quel que soit leur adaptation. [31] 4.4 Algorithme génétique à double exploration Les composants principaux qui jouent un rôle important dans l’algorithme génétique à double explorations sont les suivants : Population de sélection : La population de sélection contient des vecteurs générés aléatoirement, ces vecteurs contient que des ‘0’ et des ‘1’. ‘0’ indique que le gène n’est pas sélectionné et ‘1’ indique que le gène est sélectionné. Population de classification : La population de sélection composée de plusieurs vecteurs ,pour chaque vecteurs une population de classification est générée. Cette dernière contient les valeurs de l’intensité des gènes sélectionnés par le vecteur. Classification : dans cette étape un algorithme génétique est appliqué à la population de classification, les vecteurs sélectionnés par l’AG seront utilisés pour calculer le taux de classification .donc chaque vecteur de sélection aura un taux de classification. Si les taux obtenus sont satisfiable, le processus va s’arrêter sinon les meilleurs vecteurs qui ont un bon taux de classification seront élus pour la deuxième itération. La deuxième itération commence par le croisement entre les vecteurs élus de la première itération puis les deux étapes qui suivent reste invariable. 52 Chapitre 4 : Classification des données de biopuces. 4.5 Synthèse du chapitre Nous avons donné dans ce chapitre quelques définitions sur la classification, les buts et modalités de la classification et les différents types de classification .puis nous avons défini deux algorithmes qui sont très utilisés dans le domaine de classification : l’algorithme KPPV et l’algorithme génétique. L’algorithme génétique à double explorations est une méthode que nous avons proposée pour notre sujet de classification. 53 Chapitre 5 Résultats. Sommaire Chapitre 5 : Résultats. 5.1 Jeu de données utilisé dans ce mémoire ……………………………………....……...56 5.1.1 5.2 Cancer de la Prostate ………………………………………………………….…...56 Résultats ………………………………………………………………………….…..56 5.2.1 KPPV ……………………………………………………………………………..56 5.2.2 AG-AG …………………………………………………………………………....57 5.2.3 Comparaison de nos résultats avec d’autres travaux …………………..………....58 5.3 Synthèse du chapitre ………………………………………………………..………..61 Résultats 5.1 Jeu de données utilisé dans ce mémoire Nous avons utilisé un jeu de donnée public, facilement accessible et qui est utilisé dans de nombreux travaux concernant la classification des données de puces à ADN. Ce jeu constitue en quelque sorte un jeu de test qui permet de comparer les méthodes proposées depuis quelques années dans le domaine de la bioinformatique. 5.1.1 Cancer de la Prostate Dans ce jeu de données, le niveau d’expression de 12600 gènes est mesuré sur 102 tissus. L’objectif initial est de distinguer les tissus normaux (52) des tissus cancéreux (50). Pour une description complète de ce jeu de données consulter l’adresse : http://www.broad.mit.edu/cgi-bin/cancer/datasets.cgi Sous la rubrique “Gene Expression Correlates of Clinical Prostate Cancer Behavior”. 5.2 Résultats Les données du cancer de la prostate contient presque 12600 gènes et pour mieux analyser ce nombre de gènes important, nous utilisons deux méthodes de filtrage statistique (chapitre 3) : le test de Fisher et le test BW. Après la réduction du nombre des gènes à 75 gènes, nous appliquons la méthode KPPV et la méthode AG-AG. 5.2.1 KPPV Le tableau ci-dessous montre les résultats que nous avons trouvés : Cancer de la prostate KPPV Taux de classification Nombre de gènes K Test de Fisher 80 % 11 2;4 Test BW 97.14 % 06 2 Table 5.1- Résultats obtenus par la méthode KPPV. 56 Résultats 5.2.2 AG-AG La deuxième méthode appliquée sur le jeu de données du cancer de la prostate est l’algorithme génétique à double exploration (chapitre 4) .les conditions expérimentales pour ce dernier est les suivantes : Taille de la population de sélection =15. Taille de la population de classification =30. Nombre de génération=100. Nombre d’exécution =10. Le tableau ci-dessous montre les résultats que nous avons trouvés : AG-AG Test de Fisher Test BW Cancer de la prostate Taux de classification Nombre de gènes 91.42 % 23 97.14 % 19 Table 5.2- Résultats obtenus par la méthode AG-AG. Figure 5.1 Taux de classification des données de biopuces. 57 Résultats Données de puces à ADN Prétraitement Données prétraitées Filtrer (test de Fisher et BW) Gènes sélectionnés Classifieur (KPPV ,AG-AG) Classification Figure 5.2 Schéma général d’analyse des données de biopuces . 5.2.3 Comparaison de nos résultats avec d’autres travaux Nous proposons de faire une comparaison avec les travaux les plus importants dans Le domaine de la sélection et de la classification des données de puces à ADN. Le tableau Suivant montre cette comparaison : 58 Résultats Cancer de la prostate Références Taux d’apprentissage Nombre de gènes sélectionnés KPPV 97.14 % 06 AG-AG 97.14 % 19 [47] 97.0% 30 [48] 86.88% - [49] 73.5 % - [50] 92.5 % - Table 5.3 comparaison des résultats. Nous constatons d’après la lecture du tableau de comparaison que nous avons obtenu une bonne performance de classification pour nos deux méthodes proposées à ce sujet : classification des donnés de biopuces. Les auteurs dans [50] utilisent deux méthodes : la méthode SVM avec un taux de 92.5 % et la méthode ULDA avec un taux 92 %. Les auteurs dans [47 ] utilisent les réseaux de neurones avec un taux de 97% et un nombre de gène égal à 30. Le résultat affiché dans [49] utilise la méthode bagging and bootstrap avec un taux égal à 73.5 % et le résultat affiché dans [48] utilise la méthode PCA et LDA avec au taux de 86.88%. Nous notons que la méthode Kppv a un bon taux de classification avec un nombre de gènes très petits par rapport à toutes les méthodes qui traitent ce sujet de classification. La deuxième bonne performance obtenu par l’algorithme génétique à double explorations montre que l’algorithme génétique reste une méthode très intéressante dans le domaine de classification. Nous terminons notre comparaison par deux points: 1- Les gènes sélectionnés dans toutes les méthodes notamment les méthodes qui donnent un bon taux de classification ne sont pas les mêmes , exception d’un seul gène ou deux. 59 Résultats 2- Les travaux les plus importants dans le domaine de classification des données de biopuce n’ont pas encore aboutissent à 100% en ce qui concerne les données du cancer de la prostate. Ce dernier point ouvre des perspectives sur plusieurs autres propositions. 60 Résultats 5.3 Synthèse du chapitre Nous avons présenté dans ce chapitre le jeu de données utilisé dans ce mémoire ainsi que les résultats obtenus par l’algorithme KPPV et l’algorithme génétique à double explorations. Puis nous avons comparé nos résultats avec quelques résultats de références. 61 Conclusion Conclusion et Perspectives Conclusion Les différents travaux réalisés dans ce mémoire s’inscrivent dans le cadre de classification des données issues des biopuces. Nous avons présenté tout d’abord la méthode PCR qui a permis de développer la recherche en plusieurs domaines notamment la biologie. La méthode PCR permet d’amplifier une seule copie de gène à un million d’exemplaires en quelques heures. Ensuite nous avons présenté les différentes étapes d’une analyse par puce à ADN, telles que la préparation des cibles et l’hybridation, acquisition et analyse des images et transformation des données. Nous avons utilisé des méthodes de sélection statistique qui sont très utilisées, pour réduire Le nombre de gènes important et ne laisser que les gènes qui ont une valeur d’expression significative. Nous avons proposé deux algorithmes pour notre sujet de classification : l’algorithme Kppv et l’algorithme génétique à double exploration .l’algorithme génétique à double explorations est un algorithme qui utilise un algorithme génétique pour la sélection et un algorithme génétique pour la classification. Finalement, nous avons comparé les deux résultats de nos deux méthodes avec des modèles de référence. Les résultats comparatifs montrent que nos deux méthodes proposées sont compétitifs, en terme de taux de classification et du nombre de gènes sélectionnés. Perspectives de recherche Nous avons proposé différents algorithmes pour la classification des données de biopuces, bien qu’ils nous aient permis d’obtenir des résultats compétitifs ,nos approches pourraient être encore améliorées. 63 Conclusion et Perspectives D’après les méthodes que nous avons utilisées, les méthodes de sélection telles que BW et test de Fisher ne donnent pas les mêmes gènes pour l’ensemble initial à classifier. Cette remarque nous permet de penser à d’autres idées pour la sélection de la population initiale. Nous pouvons utiliser d’autres méthodes de sélection existent dans la littérature, les comparer et de ne garder que les mêmes gènes pour toutes les méthodes choisies. Nous pouvons encore envisager d’autres idées, puisque le sujet à traiter rentre dans le cadre de la bioinformatique, nous pensons donc à la validation biologique des résultats, c’està-dire étudier les gènes choisis par la méthode de sélection au niveau du laboratoire. Les résultats du laboratoire va nous guider à construire notre système de diagnostic par des méthodes simples et rapides. 64 Références Références Références [1] Peyre J., Analyse statistique des données issues de biopuces à ADN, thèse de doctorat Université de Grenoble I, Septembre 2005. [2] Saiki et al. (1985). Enzymatic amplification of ß-globin genomic sequences and restriction site analysis for diagnosis of sickle cell anemia. Science 230, 1350. [3] Alberts et al. (1983). Molecular biology of the cell. Garland Publishing, Inc., New York. [4] S. P. Fodor, J et al Light-directed, spatially addressable parallel chemical analysis,‖ Science 251, pp. 767–773, 1991. [5] P. Fortina, D. Graves, et al Technology Options and Applications of DNA Microarrays, pp. 185–216, Harwood Academic Publishers, Philadelphia, 2001. [6] K. L. Gunderson, et al Decoding randomly ordered DNA arrays,‖ Genome Research 14(5), pp. 870– 877, 2004. [7] Herold, KE; Rasooly, A (editor) (2009). Lab-on-a-Chip Technology: Fabrication and Microfluidics. Caister Academic Press. [8 ] Hardin,J,et al robust measureof Correlation between two gens on a microarray .BMC Bioinformatics 2007. [9] E. M. Southern. DNA Arrays methods and protocols, chapter DNA Microarrays, pages 1–15. Humana Press, 2001. [10] Golub et al.,. Molecular classification of cancer: Class discovery and class prediction by gene expression monitoring. Science, 286:531–537, 1999. [11] Y.H. Yang, et al Speed.Normalization for cdna microarray data: a robust composite method addressing single and multiple slide systematic variation. Nucleic Acids Res, 30:1–12, 2002. 66 Références [12] Genome Resource Facility GRF, Microarray section, London School Of Hygiene and Tropical, Article technique, Medecine. 2006 [13] Brazma A., et all Minimum information about a microarray experiment (MIAME) – toward standards for microarray data. Nature Genetics 29(4) : 365 –371 2001. [14] Rayner, T. F., P. Rocca-Serra, P. T. Spellman, H. C. Causton, A. Farne, E. Holloway A simple spread sheet-based,MIAME-supportive format for microarray data : MAGETAB. BMC Bioinformatics 2006. [15] Parkinson H., et al, ArrayExpress—a public database of microarray experiments and gene expression Profiles 2007. [16] WebCampus, Analyse des puces à ADN, Plateforme d’enseignement,Université de Namur, Février 2014. [17] Barrett T., et all NCBI GEO :mining millions of expression profiles—database and tools 2005. [18] Statistical Algorithms Description Document, Affymetrix, Document technique,Inc., Santa Clara, CA, 2002. [19] Clevert D-A., Using FARMS form summarization Using I/NI-calls for gene filtering, Article technique, Kepler University, Octobre 2013. [20] Tusher, V., R. Tibshirani and G. Chu, Significance analysis of microarrays applied to transcriptional responses to ionizing radiation. Proceedings of the National Academy of Science USA, 2001. [21] David M. Rocke et Blythe Durbin. A Model for Measurement Error for Gene Expression Arrays. Journal of Computational Biology, 8, 559–567, 2001. (55, 56) [22]. Yosef Hochberg et Ajit C. Tamhane. Multiple Comparison Procedures. Wiley, 1987. (82) 26. Iain M. Johnstone et Bernard W. Silverman. Needles and straw in haystacks : Empirical Bayes estimates of possibly sparse sequences. The Annals of Statistics, 32(4), 1594–1649, 2004. (128, 129) 67 Références [23]. Charles Kooperberg, et al Improved Background Correction for Spotted DNA Microarrays. Journal of Computational Biology, 9(1), 55–66, 2002. (22) [24] Bernard R., Puces à ADN, Cours de biologie, Université d’Aix enProvence, 2010. [25] Genome Resource Facility GRF, Microarray section, London School of Hygiene and Tropical, Article technique, Medecine. 2006. [26] Le Meur N., Acquisition des puces à AND et leur interprétation, thèse de doctorat, Université de Nantes, Juin 2005 [27] Moussa A. Vannier B. , Workflow d’analyse de données des puces à ADN, Spectra Analyse n291 p 48, revue scientifique, Mai 2013 [28] Yee H. Yang, Sandrine Dudoit, Percy Luu et Terence P. Speed. Normalization for cDNA Microarray Data. Dans SPIE BiOS. San Jose, California, Janvier 2001. [29] Holland, Adaptation in Natural and Artificial Systems. University of Michigan Press : Ann Arbor, 1975. [30] Goldberg, D.E., Genetic Algorithms in Search, Optimization and Machine Learning. Addison-Wesley : Reading, MA, 1989. [31] Z. Michalewicz, Genetic Algorithms. Springer-Verlag : New York, 1992. [32] A. Alizadeh, Distinct types of diffuse large (b)–cell lymphoma identified by gene expression profiling. Nature,403:503–511, February 2000. [33] E. Alba, J. Garcia-Nieto, L. Jourdan, and E.G. Talbi. Gene selection in cancer classification using pso/svm and ga/svm hybrid algorithms. In IEEE, editor, CEC-2007, pages 284–290, 2007. [34] Z. Zhu, Y.S. Ong, and M. Dash. Markov blanket-embedded genetic algorithm for selection. Pattern Recognition, 40:3236–3248, 2007. [35] Mari, J., & Napoli, A. (1996). Aspects de la classification. Rapport technique 2909, INRIA. [36] Henriet, L. (2000). Système d'évaluation et de classification multicritères pour l'aide à la décision, construction de modles et procédures d'affectation. Thèse de doctorat en science. Université Paris Dauphine. 68 Références [37] Michie, D., Spiegelhalter, D., & C.C. (1994). Machine learning, neural and statistical classification.New York: Ellis Horwood. [38] Bognar, K. (2003). Aspects théoriques de la classification à base de treillis. Université Debrecen: Institut de mathématiques et informatique. [39] Duda, O. R., Hart, E. P., & Stork, D. G., (2001). Patern classification. John Wiley & Sons. [40] Weiss, S., & Kulikowski, C. (1991). Computer systems that learn, classification ans prediction methods from statistics, neural nets, machine learning and experts systems. San Mateo: California Morgan Kaufman Publishers. [41] Hansen, P., & Jaumard, B. (1997). Cluster analysis and mathematical programming. Mathematic Programming, 79, pp. 191-215. [42] Vincent, P. (2003). Modèles à noyaux à structure locale. Thèse de Doctorat. Université de Montréal. [43] Vapnik, V. (1998). Statistical learning theory. New York: Wiley. [44] Belacel, N. (1999). Méthodes de classification multicritère, méthodologie et applications à l'aide au diagnostic médicale. Thèse de doctorat en science. Université Libre de Bruxelles. [45] Roy, B., & Bouyssou, D. (1993). Aide multicritère à la décision. Economica. [46] Wu, X., Kumar, V. Q., & McLachlan HMG, N. A. (2008). Top 10 algorithms in data mining, knowledge and information systems. International Journal of Knowledge and Information Systems (KAIS), 14(1), pp. 1-37. [47] B. Liu, Q. Cui, T. Jiang, and S. Ma. A combinational feature selection and ensemble neural network method for classification of gene expression data. BMC Bioinformatics, 5(138):1–12,2004. [48] W-H. Yang, D-Q. Dai, and H. Yan. Generalized discriminant analysis for tumor classification with gene expression data. Machine Learning and Cybernetics., 1:4322– 4327, 2006. [49] A. C. Tan and D. Gilbert. Ensemble machine learning on gene expression data for cancer classification. Applied Bioinformatics, 2(2):75–83, 2003. [50] J. Ye, T. Li, T. Xiong, and R. Janardan. Using uncorrelated discriminant analysis for tissue classification with gene expression data. IEEE/ACM Trans. Comput. Biology Bioinform., 1(4):181–190, 2004. 69