MEMOIRE - Université des Sciences et de la Technologie d`Oran

publicité
République Algérienne Démocratique et Populaire
Ministère de l’Enseignement Supérieur et de la Recherche Scientifique
Université des Sciences et de la Technologie d’Oran Mohamed Boudiaf
Faculté de Mathématiques et Informatique
Département d’Informatique
MEMOIRE
En vue de l’obtention du
Diplôme de Magistère
Présenté et Soutenu par :
Mr. MOUSSATI Omar
Intitulé
Classification des données de biopuces
: Mathématiques et Informatique.
: Informatique.
: Simulation et Intelligence Artificielle.
Domaine
Spécialité
Intitulé de la Formation
Le jury est composé de :
Pr
Mr. BENYETTOU Abdelkader
Président
USTO-MB
Pr
Mme. IZABATENE FIZAZI Hadria
Examinatrice
USTO-MB
Pr
Mr. BENYETTOU Mohamed
Rapporteur
USTO-MB
Examinateur
USTO-MB
Dr Mr. BELKADI Khaled
Année Universitaire 2015 / 2016
Abstract
Medical diagnosis is very important in the field of recognition and
treatment of disease. The biochip is a modern technology which helps us to make the
diagnosis. To treat our subject of classification, we presented the various stages of an analysis
by DNA chip, then we have applied selection methods such as Fisher test and the BW test on
selecting population. The KNN algorithm and the dual explorations genetic algorithm are
applied to all the genes selected for classification. The classification rate we found show that
our results are competitive. We plan to do a combination of different methods of selection and
to validate the results biologically.
Keywords— Biochips ; Microarray; Data Classification ; DNA chip .
Résumé
Le diagnostic médical est un élément très important dans le domaine de
reconnaissance et traitement des maladies. La biopuce est l’une des techniques modernes qui
nous aide à faire le diagnostic. Pour traiter notre sujet de classification, nous avons présenté
les différentes étapes d’une analyse par puce à ADN, puis nous avons appliqué des méthodes
de sélection telles que le test de Fisher et le test BW sur la population de sélection.
L’algorithme Kppv et l’algorithme génétique à double explorations sont appliqués sur
l’ensemble des gènes sélectionnés pour faire la classification. Les taux de classification que
nous avons trouvés montrent que nos résultats sont compétitifs. Nous envisageons de faire
une combinaison entre les différentes méthodes de sélection et de valider les résultats
biologiquement.
Mots-clés : Biopuces; Classification des données; Puce à ADN.
Dédicaces
Je dédie ce travail
A Mes très chers parents qui m’ont aidé et encouragé durant toutes les années
de mes études.
A Tous mes enseignants.
A Mes frères et sœurs.
A Toute la famille MOUSSATI et A Tous mes amis.
I
Remerciements
Je remercie DIEU qui m’a guidé dans mes pas et qui m’a donné le courage tout au long du
développement de ce mémoire.
Je tiens à exprimer mes sentiments de gratitude et de reconnaissance à mon encadreur
Monsieur Mohamed BENYETTOU, professeur à l’université Des sciences et technologie
d’Oran (USTO) , qui a consacré son temps à suivre de près l’évolution de ce projet, à
orienter les différentes étapes et à pallier toutes les difficultés auxquelles j’ai eu à faire face.
Je souhaiterais vivement remercier l’ensemble de l’équipe de Simulation et Intelligence
Artificielle, je tiens aussi à remercier tous les étudiants de S.I.A et M. O. E.P.S, pour
avoir créé une ambiance chaleureuse et amicale tout au long de mes études.
Je suis aussi reconnaissant envers tous les enseignants qui ont contribué durant toutes
mes études. Ainsi, tous ceux qui m’ont aidé de près ou de loin à réaliser ce modeste travail.
J’adresse ma reconnaissance à tous les personnes qui mon fait l’honneur d’avoir
participé à mon jury.
II
Table des matières
Table des matières
Introduction ...............................................................................................................................2
Chapitre1 : Notions Biologiques Elémentaires.
1.1 La cellule .............................................................................................................................6
1.2 Acide désoxyribonucléique (ADN) …………………………….……………..………….6
1.3 Le transcriptome…………… …………………………………………………..….……...7
1.4 La méthode P C R .……………………………………………………….…….………....8
1.4.1 Introduction .………………………………… …………………….…………….…8
1.4.2 Principe de la PCR :……………………………………………….………..……….9
1.5 Historique des biopuces :………………………………………………....…….…….….10
1.6 Synthèse du chapitre :………………………………………………………………..….13
Chapitre2 : Principe des biopuces.
2.1 Principe des puces à ADN ………………………………….………………..…….........16
2.1.1 La préparation des cibles et l’hybridation ………………….…..……..…….…..17
2.1.2 Acquisition et analyse des images …………………… ……..…………..…........17
2.1.3 Transformation des données ………………………………………….……........18
2.2. Plateformes :………………………………………………………….…………..……..20
2.2.1 Technologie Agilent …………………………………………………..……........20
2.2.1.1 Avantages ………………………………………………..…………..….20
2.2.1.2 Inconvénients …………………………………………………….…. ....21
2.2.2 Technologie Affymetrix :…………………………………………….……… …..21
2.2.2.1 Avantages . ………………………………………………………… …...21
2.2.2.2 Inconvénients………………………………………………………… …22
2.3 Domaines d’application ………………………………………….…..………………… 22
2.3.1 L’environnement ………………………………………….…………………... ...22
2.3.2 Diagnostics médicaux ………………………………………………..………... ..23
III
Table des matières
2.3.3 Expertise médico-légale ………………………………………………… ….…...23
2.4 Banques de données génomiques ……………………………………………….…..…..23
2.4.1 La MGED (Microarray Gene Expression Data Society) ………………….….......23
2.4.1.1 MIAME :…..…………… ……………………………………...……….......23
2.4.1.1.1 MAGE-ML :…………………………………………………...……..…...24
2.4.1.1.2 MAGE-TAB :………………………………………………..….…….......24
2.4.2 Gene Expression Omnibus (GEO) :…………………………………………….....24
2.4.3 ArrayExpress …………………………………………………….……………......25
2.5
Les outils de traitement :……………………………………………………………...27
2.5.1 Les outils d’analyse d’image :…………………………………………………......27
2.5.2 Langage R :……………………………………………………...…….……....….....28
2.5.3 Projet BioConductor ( 2000 ) :……………………………………….……..............28
2.6 Synthèse du chapitre :……………………………………………………………….…...30
Chapitre3 : Etapes d’analyse des données de biopuce
3.1 Prétraitement des données (Preprocessing)……………………………………………. 33
3.1.1
Etapes du prétraitement des données ………………………………………….33
3.1.1.1 Correction du bruit de fond (Background Correction)…………………… 33
3.1.1.2 Normalisation…………………………………………………………….. 33
3.1.1.2.1 Normalisation des puces Affymetrix ……………………………....34
3.1.1.2.1.1 Normalisation des quantiles (quantiles normalization) …34
3.1.1.3 Sommarisation……………………………………………………………..36
3.2
Sélection des attributs pour traitement des données …………………………...……36
3.3
Synthèse du chapitre ……………………………………………………………...…38
Chapitre 4 : Classification des données de biopuces.
4.1
Classification …………………………………………………………………………41
4.1.1
Buts et modalités de la classification ………………………………………………41
4.1.2
La classification,un domaine multidisciplinaire…………….…………………..….42
4.1.2 .1 Classification et statistique ………………………………………………..…..42
4.1.2.2 Classification et programmation mathématique………………………...……. 43
IV
Table des matières
4.1.2.3 Classification et apprentissage automatique …………………………………..43
4.1.2.4 Classification et aide multicritère à la décision ……………………………….44
4.2 K-ppv………………………...………………………………………...……………….. 44
4.3 Algorithmes génétiques …………………………………………………………………45
4.3.1 Représentation des solutions ………………………………………………………..46
4.3.2 Fonction d’évaluation……………………………………………………………… 46
4.3.3 Opérateurs génétiques ………………………………………………………….…47
4.3.3.1 L’opérateur de sélection ……………………………………………………..47
4.3.3.2 L’opérateur de croisement ………………………………………………....51
4.3.3.3 L’opérateur de mutation…………………………………………………...... 51
4.3.4 Phase de remplacement………………………………………………………….… 51
4.4
Algorithme génétique à double explorations…………………………………..….…. 52
4.5
Synthèse du chapitre…………………………………………………………….….... 53
Chapitre 5 : Résultats.
5.1
Jeu de données utilisé dans ce mémoire ……………………………………....……...56
5.1.1
5.2
Cancer de la Prostate ……………………………………………………………...56
Résultats ………………………………………………………………………….…..56
5.2.1
KPPV ……………………………………………………………………………..56
5.2.2
AG-AG …………………………………………………………………………....57
5.2.3
Comparaison de nos résultats avec d’autres travaux …………………..………....58
5.3
Synthèse du chapitre ………………………………………………………..………..61
Conclusion et perspectives…………………………………………………...…..………....63
Références…………………………………………………………...……………………....66
V
Liste des figures
Liste des figures
Chapitre1 : Notions Biologiques Elémentaires.
Figure1.1 – Structure d’une molécule d’ADN…………………………………………..........6
Figure 1.2 Dogme central de la biologie moléculaire(Source site ISIMA,auteurVin
entBarra)……………………………………………………………………………………....7
Figure 1.3. L’amplification de l’ADN dans la PCR……………………………………….....9
Chapitre2 : Principe des biopuces.
Figure 2.1 – Etapes d’une analyse par puces à ADN………………………………………..16
Figure 2.2 – Processus d’acquisition d’image……………………………………………….19
Figure 2.3 – Différents fichiers intervenant de l’importation aux résultats d’analyse………26
Figure 2.4 visualisation d’un scan à l’aide de GenePix Pro……………………….………...27
Figure 2.5 – Page d’accueil du projet BioConductor………………………………………..28
Chapitre3 : Etapes d’analyse des données de biopuce
Figure 3.1 –Nuage de points sur une puce à ADN avant et après normalisation
logarithmique……………………………………………………….…………………….….34
Figure 3.7 – Nuage de points avant et après normalisation sur 4 puces Affymetrix. (a) Nuage
de points avant normalisation.(b) Nuage de points après normalisation………………….....35
Chapitre 4 : Classification des données de biopuces.
Figure 4.1 – Éléments d’un algorithme génétique……………………………………….….47
Chapitre 5 : Résultats.
Figure 5.1 Taux de classification des données de biopuces……………………………..….57
Figure 5.2 Schéma général d’analyse des données de biopuces ………………………..….58
VI
Liste des tables
Liste des tables
Table 2.1 – Matrice d’expression des gènes……………………………………………...…..19
Table 5.1- Résultats obtenus par la méthode KPPV………………………………………….56
Table 5.2- Résultats obtenus par la méthode AG-AG……………………………………......57
VII
Introduction
Introduction
Le domaine de la bioinformatique suscite depuis plusieurs années un intérêt très grand
dans la communauté scientifique car il ouvre des perspectives très riches pour
la compréhension des phénomènes biologiques. Ces phénomènes nécessitent la collaboration
entre biologistes, médecins, informaticiens, mathématiciens et physiciens .
Dans ce mémoire nous abordons un problème de bioinformatique qui est celui de
la classification des données de biopuces. La technologie des puces à ADN repose sur une
technologie multidisciplinaire intégrant la biologie, la nanotechnologie, la chimie des acides
nucléiques, l'analyse d'images et la bioinformatique.
La biopuce est une technique d’analyse moderne, elle est très utilisé dans plusieurs
domaine : dans la médecine, dans la pharmacologie, l'agriculture et de nombreux autres
domaines.
Avec le développement rapide de la technologie des puces à ADN depuis les
dernières décennies, il est possible aujourd’hui d’étudier simultanément l’expression de
milliers de gènes. Les données d’expressions provenant de cette technologie sont observées et
analysées sous différentes conditions expérimentales. Ces données obtenues sont
généralement analysées pour des objectifs divers.
Certaines données d’expression de gènes sont spécifiques aux maladies. Elles peuvent
être utilisées pour inférer les gènes liés à un cancer, afin d’identifier les différents cancers sur
la base de ces gènes.
D’autres données d’expressions sont utilisées pour prédire les gènes impliqués dans
les processus de régulation des différentes étapes de phénomènes de l’organisme vivant tel
que le cycle cellulaire. La grande quantité des gènes que l’on observe en plus de la complexité
des processus biologiques posent un vrai souci pour la compréhension et l’interprétation des
masses de résultats obtenus.
2
La classification permet d’interpréter ces masses de résultats. Nous allons utiliser
dans ce mémoire deux algorithmes de classification. L’algorithme Kppv et l’algorithme
génétique à double exploration pour différencier les tissus tumoraux et les tissus sains à partir
de la mesure simultanée d’un grand nombre de gènes au sein d’un échantillon biologique.
Le présent mémoire est organisé comme suit :
Dans le premier chapitre nous allons présenter des notions élémentaires en biologie
qui sont les bases de notre sujet de recherche dans ce mémoire. Dans le second nous allons
définir le principe des biopuces , les banques des données génomiques et quelques outils de
traitement. Ensuite nous allons exposer les différentes étapes d’analyse des données et des
méthodes de sélection des gènes au troisième chapitre. Le quatrième chapitre va être consacré
aux définitions de la classification et la présentation de nos deux approches proposées pour
notre sujet. Dans le cinquième chapitre, nous allons présenter nos résultats ainsi que la
comparaison avec des modèles de références.
.
3
Chapitre 1
Notions Biologiques Elémentaires.
Sommaire
Chapitre1 : Notions Biologiques Elémentaires.
1.1 La cellule .............................................................................................................................6
1.2 Acide désoxyribonucléique (ADN) …………………………….……………..…………..6
1.3 Le transcriptome…………… …………………………………………………..….……...7
1.4 La méthode P C R .……………………………………………………….…….………....8
1.4.1 Introduction .………………………………… …………………….…………….…8
1.4.2 Principe de la PCR :……………………………………………….………..……….9
1.5 Historique des biopuces :………………………………………………....…….…….….10
1.6 Synthèse du chapitre :………………………………………………………………..….13
Chapitre1 : Notions Biologiques Elémentaires.
1.1
La cellule
C’est la plus petite unité structurale et fonctionnelle de tous les êtres vivants. Il existe
des milliers de type de cellules différents par leur forme, leur taille, leur fonction et leur
comportement.
Chez les organismes dits procaryotes tels que les bactéries, le matériel génétique n’est
pas contenu dans un noyau mais est libre dans tout le cytoplasme de la cellule. Par contre, les
organismes complexes comme les eucaryotes qui sont pluricellulaires, l’information
génétique est localisée dans un noyau. L’homme, les animaux et les plantes sont des
organismes eucaryotes.
La plupart de leurs cellules sont capables de grossir et se diviser. Elles sont dotées d’un
métabolisme, c’est à dire la capacité d’importer des nutriments et les convertir en molécules et
en énergie.
1.2 Acide désoxyribonucléique (ADN)
L’acide désoxyribonucléique (A.D.N) est une molécule présente dans le noyau de la
cellule qui joue un rôle central dans la vie cellulaire. Il renferme l’ensemble des informations
nécessaires au développement et au fonctionnement d’un organisme. Cette macromolécule a
une structure en double hélice constituée de deux brins antiparallèles. Un brin simple est
un
polymère linéaire constitué de 4 nucléotides. Un nucléotide comprend une des bases :
adénosine (A), cytosine (C), guanine (G), ou thymine (T). Les couples A-T et G-C sont
appelés bases complémentaires par lesquelles les deux brins vont s’associer (Figure 1.1).
Figure1.1 – Structure d’une molécule d’ADN.
6
Chapitre1 : Notions Biologiques Elémentaires.
1.3
Le transcriptome
Le gène, unité de base de stockage de l’information génétique, est une petite séquence
d’ADN. Il y a environ 6000 gènes chez les levures par exemple et 30000 chez l’homme.
L’ensemble du matériel génétique d’un individu ou d’une espèce encodé dans son ADN est
appelé alors son génome.
En fonction de leurs besoins, les cellules utilisent à un instant donné une partie des
gènes pour réaliser la synthèse des protéines nécessaires aux grandes fonctions cellulaires. Le
passage du gène à la protéine se fait en deux grandes parties, la transcription et la traduction, à
l’aide d’un agent essentiel l’ARNm, dit ARN messager. le gène est transcrit (synthèse de
l’ARNm) puis l’ARNm est conduit hors du noyau dans le cytoplasme ou il va servir de
matrice pour la synthèse des protéines pour la traduction.
De manière générale, pouvoir comparer le transcriptome de différents types cellulaires,
dans différentes conditions, ou pouvoir analyser l’ensemble du transcriptome d’une cellule à
plusieurs phases de son cycle cellulaire ou dans diverses conditions pathologiques, doit
permettre de mieux comprendre le fonctionnement cellulaire sur le plan fondamental.
Les méthodes d’analyse du transcriptome les plus utilisées reposent sur la technologie
des puces à ADN car elles permettent de visualiser simultanément le niveau d’expression de
plusieurs milliers de gènes dans un contexte physiologique ou pathologique particulier. [1].
Figure 1.2 Dogme central de la biologie moléculaire(Source site ISIMA,auteurVin entBarra).
7
Chapitre1 : Notions Biologiques Elémentaires.
1.4
La méthode P C R
1.4.1 Introduction
La mise au point de la technique de réaction de polymérisation en chaîne (PCR) par
K. Mullis et ses collaborateurs en 1985 a révolutionné la biologie moléculaire et la médecine
moléculaire [2]. La réaction de polymérisation en chaîne est une technique utilisée pour
amplifier à l’aide d’enzymes une région déterminée de l’ADN qui se trouve entre deux
régions de séquence ADN connue. Alors qu’autrefois seules de très petites quantités d’un
gène spécifique pouvaient être obtenues, la PCR permet maintenant d’amplifier même une
seule copie de gêne à un million d’exemplaires en quelques heures.
Les techniques PCR sont devenues essentielles pour beaucoup de procédures
communes, telles que le clonage de fragments d’ADN spécifiques, la détection et
l’identification de gènes à des fins de diagnostic et en médecine légale ainsi que dans la
recherche sur les modes d’expression génique. Plus récemment, la PCR a permis l’exploration
de nouveaux domaines, tels que le contrôle de l’authenticité de denrées alimentaires, la
présence d’ADN génétiquement modifié et la contamination microbiologique.
L’ADN contient l’information génétique complète qui définit la structure et la fonction d’un
organisme. Trois processus différents sont responsables de la transmission de l’information
génétique:
 la réplication;
 la transcription;
 la traduction.
Au cours de la réplication, un acide nucléique bicaténaire est dupliqué pour donner des
copies identiques. Ce processus perpétue l’information génétique. Lors de la transcription, un
segment d’ADN constituant un gène est lu et transcrit en une séquence monocaténaire
d’ARN. L’ARN se déplace du noyau vers le cytoplasme.
Enfin, pendant la traduction, la séquence d’ARN est traduite en séquence d’acides
aminés lors de la formation de la protéine [3].
La réplication de l’ADN est le processus sur lequel la PCR est basée, et est décrite ciaprès.
8
Chapitre1 : Notions Biologiques Elémentaires.
1.4.2 Principe de la PCR
La PCR est basée sur le mécanisme de la réplication de l’ADN : l’ADN bicaténaire est
déroulé en ADN monocaténaire, puis dupliqué et «réenroulé». Cette technique comprend les
cycles répétitifs suivants:
 dénaturation de l’ADN par fusion à haute température pour convertir l’ADN
bicaténaire en ADN monocaténaire ;
 hybridation à l’ADN cible de deux oligonucléotides utilisés comme amorces;
 extension de la chaîne d’ADN par addition de nucléotides à partir des amorces en
utilisant l’ADN polymérase comme catalyseur en présence d’ions Mg2+.
Les oligonucléotides consistent généralement en séquences relativement courtes qui
sont différentes les unes des autres et complémentaires des sites de reconnaissance flanquant
le segment d’ADN cible à amplifier. Les étapes de dénaturation de la matrice, d’hybridation
des amorces et d’extension des amorces constituent un «cycle» dans la méthode de réaction
de polymérisation en chaîne.
A l’étape finale de la PCR, on obtient une copie identique à celle de la première.
(figure 1.3)
Figure 1.3. L’amplification de l’ADN dans la PCR.
9
Chapitre1 : Notions Biologiques Elémentaires.
1.5
Historique des biopuces
Le développement des biopuces a une longue histoire, en commençant par les
premiers travaux sur la technologie des capteurs sous-jacente [4]. L'un des premiers portable,
capteurs à base de chimie était l'électrode de pH en verre, inventé en 1922 par Hughes.
Mesure de pH a été accompli en détectant la différence de potentiel développé à travers une
membrane de verre mince sélective de la perméation des ions d'hydrogène; Cette sélectivité a
été obtenu par des échanges entre H+ et les sites SiO dans le verre. Le concept de base de
l'utilisation de sites d'échange pour créer membranes à perméabilité sélective a été utilisé pour
développer d'autres ions capteurs dans les années subséquentes.
Par exemple, un K+ capteur était produite en incorporant valinomycine dans une
mince membrane. Plus de trente ans se sont écoulés avant le premier vrai biocapteur (ie : un
capteur utilisant des molécules biologiques) émergé. En1956, Leland Clark a publié un
document sur une électrode de détection d'oxygène. Ce dispositif est devenu la base pour un
capteur de glucose développé en 1962 par Clark et collègue de Lyon qui a utilisé des
molécules de glucose oxydase noyé dans une membrane de dialyse.
L’enzyme fonctionné en présence de glucose pour réduire la quantité d'oxygène
existant dans l'électrode à oxygène, concernant ainsi les niveaux d'oxygène pour la
concentration de glucose.
Ceci et similaires biocapteurs sont devenus connus comme enzyme électrodes, et sont
encore en usage aujourd'hui [6]. En 1953, Watson et Crick ont annoncé leur découverte de la
désormais familière structure en double hélice de molécules d'ADN et préparer le terrain pour
la recherche sur la génétique qui continue de nos jours. Le développement des techniques de
séquençage en 1977 par Gilbert et Sanger ont permis aux chercheurs de lire directement les
codes génétiques qui fournissent des instructions pour la protéine synthèse. Cette recherche a
montré comment l'hybridation de brins complémentaires d'oligonucléotides simples pourrait
être utilisée comme base pour la détection de l'ADN. Deux autres développements ont permis
la technologie utilisée dans moderne Biocapteurs basés sur l'ADN.
10
Chapitre1 : Notions Biologiques Elémentaires.
Tout d'abord, en 1983 Kary Mullis a inventé la polymérase réaction en chaîne (PCR),
un procédé d'amplification Concentrations d'ADN. Cette découverte a permis la détection de
quantités extrêmement faibles d'ADN dans échantillons [7]. En 1986, Hood et collègues ont
conçu une méthode pour étiqueter les molécules d'ADN avec des marqueurs fluorescents au
lieu de marqueurs radioactifs, ce qui permet l'hybridation expériences à observer optiquement.
Le rapide progrès technologique de la biochimie et champs de semi-conducteurs dans les
années 1980 a conduit à la grande échelle développement de biopuces dans les années 1990.
A ce moment, il est devenu évident que les biopuces sont largement une plate-forme
technologique qui se composait de plusieurs séparé, encore composants intégrés.
La composante réelle de détection (ou la "puce") est juste un morceau d'une analyse
système complète. Transduction doit être faite pour traduire la réelle détection événement
(liaison à l'ADN, oxydation ou réduction, etc.) dans un format compréhensible par un
ordinateur, qui ensuite permet l'analyse et le traitement pour produire un supplément finale, la
sortie lisible par l'homme. Les multiples technologies nécessaire pour faire un succès de la
biopuce de détection la chimie, la formation de réseaux de micro, au traitement du signal,
exige une approche multidisciplinaire vrai [5].
L'un des premières biopuces commerciales a été introduit par Affymetrix. Ces produits
"GeneChip" contiennent des milliers de Capteurs d'ADN pour utilisation dans la détection de
défauts, ou simple polymorphismes nucléotidiques (SNP), dans des gènes tels que p53 (à
suppresseur de tumeur) et BRCA1 et BRCA2 (liée à cancer du sein). Les puces sont produites
en utilisant techniques de microlithographie pour fabriquer traditionnellement utilisés circuits
intégrés.
Les biopuces sont une plate-forme qui nécessite, en plus de la technologie des
microréseaux, transduction et traitement du signal technologies à la sortie des résultats des
expériences de détection.
Aujourd'hui, une variété de technologies de biopuces sont soit en de développement
ou de commercialisation. De nombreux progrès continuent d'être réalisés dans la recherche de
détection qui permet de nouvelles plates-formes pour être développé pour les applications
émergentes. Diagnostic du cancer grâce à l'ADN est juste une ouverture du marché. Une
variété de industries désirent actuellement la capacité à simultanément écran pour une large
gamme d'agents chimiques et biologiques, avec des objectifs allant de tester les systèmes
11
Chapitre1 : Notions Biologiques Elémentaires.
d'eau publics pour les agents de maladies au dépistage fret aérien pour explosifs. Les
compagnies pharmaceutiques souhaitent combinatoire candidats-médicaments de l'écran
contre la cible enzymes.
Pour atteindre ces objectifs, ADN, ARN, protéines, et même de cellules vivantes sont
employées que la détection médiatrice sur biopuces. De nombreux procédés de transduction
on peut les utiliser notamment la résonance plasmonique de surface, la fluorescence et la
chimioluminescence .les techniques de détection et de transduction choisis dépendent des
facteurs tels que le prix, la durabilité, et la réutilisabilité.
12
Chapitre1 : Notions Biologiques Elémentaires.
1.6
Synthèse du chapitre
Nous avons présenté dans ce chapitre des notions élémentaires en biologie qui sont les
bases de notre sujet de recherche dans ce mémoire.
La méthode PCR (polymerase chaine reaction) est l’une de ces notions .elle permet
d’amplifier une seule copie de gène à un million d’exemplaires en quelques heures .cette
méthode a révolutionné plusieurs domaine comme la biologie et la médecine.
Ensuite nous avons donné une historique sur le développement des biopuces et les
différents domaines qui ont contribués à l’apparition de cette biopuce.
13
Chapitre 2
Principe des biopuces.
Sommaire
Chapitre2 : Principe des biopuces.
2.1 Principe des puces à ADN ………………………………….………………..…….........16
2.1.1 La préparation des cibles et l’hybridation ………………….…..……..………....17
2.1.2 Acquisition et analyse des images …………………… ……..…………..…........17
2.1.3 Transformation des données ………………………………………….…….........18
2.2. Plateformes :………………………………………………………….…………..……..20
2.2.1 Technologie Agilent …………………………………………………..……........20
2.2.1.1 Avantages ………………………………………………..…………..….20
2.2.1.2 Inconvénients …………………………………………………….…. ....21
2.2.2 Technologie Affymetrix :…………………………………………….……… …...21
2.2.2.1 Avantages . ………………………………………………………… …....21
2.2.2.2 Inconvénients………………………………………………………… .…22
2.3 Domaines d’application ………………………………………….…..……………….… 22
2.3.1 L’environnement ………………………………………….…………………... ...22
2.3.2 Diagnostics médicaux ………………………………………………..……..…. ...23
2.3.3 Expertise médico-légale ………………………………………………… …….....23
2.4 Banques de données génomiques ……………………………………………….…..…..23
2.4.1 La MGED (Microarray Gene Expression Data Society) ………………….….......23
2.4.1.1 MIAME :…..…………… ……………………………………...……….......23
2.4.1.1.1 MAGE-ML :…………………………………………………...……..…...24
2.4.1.1.2 MAGE-TAB :………………………………………………..….…….......24
2.4.2 Gene Expression Omnibus (GEO) :…………………………………………….....24
2.4.3 ArrayExpress …………………………………………………….……………......25
2.5
Les outils de traitement :……………………………………………………………...27
2.5.1 Les outils d’analyse d’image :…………………………………………………......27
2.5.2 Langage R :……………………………………………………...…….……....….....28
2.5.3 Projet BioConductor ( 2000 ) :……………………………………….……..............28
2.6 Synthèse du chapitre :……………………………………………………………….…...30
Chapitre2 : Principe des biopuces.
2.1
Principe des puces à ADN
La technologie des puces à ADN ou biopuces, connaît à l’heure actuelle un essor
exceptionnel et suscite un formidable intérêt dans la communauté scientifique. Cette
technologie a été développée au début des années 1990 et permet la mesure simultanée des
niveaux d’expression de plusieurs milliers de gènes, voire d’un génome entier, dans des
dizaines de conditions différentes, physiologiques ou pathologiques. L’utilité de ces
informations est scientifiquement incontestable car la connaissance du niveau d’expression
d’un gène dans ces différentes situations constitue une avancée vers sa fonction, mais
également vers le criblage de nouvelles molécules et l’identification de nouveaux
médicaments et de nouveaux outils de diagnostic. [10]
Le fonctionnement des puces à ADN repose sur le principe de complémentarité des
brins de la double hélice d’ADN et la propriété d’hybridation entre deux séquences
complémentaires d’acides nucléiques. Une séquence d’ADN ou d’ARN peut donc servir de
sonde pour capturer son complémentaire (cible) dans un mélange d’acides nucléiques Une
puce ADN (appelée DNA microarray en anglais) est constituée de fragments d’ADN
immobilisés sur un support solide, de manière ordonnée. Chaque emplacement de séquence
est soigneusement repéré: la position (xi, yi) correspond au gène( i). Un emplacement est
souvent appelé spot ou sonde. L’hybridation de la puce avec un échantillon biologique qui a
été marqué par une substance radioactive ou fluorescente permet de quantifier l’ensemble des
cibles qu’il contient; l’intensité du signal émis est proportionnel à la quantité de gènes cibles
qu’il contient. [8][9].
Les différentes phases d’une analyse par puces ADN sont indiquées dans la figure 2.1.
Préparation
Hybridation
Analyse
d’image
Normalisation
Analyse des
données
Figure 2.1 – Etapes d’une analyse par puces à ADN.
16
Chapitre2 : Principe des biopuces.
2.1.1 La préparation des cibles et l’hybridation
Pour comparer les niveaux d’expression dans deux échantillons biologiques ou deux
conditions (référence et pathologique), la première étape consiste en la préparation du génome
exprimé dans ces deux échantillons. Il s’agit d’extraire les ARNm d’un échantillon biologique
à analyser et la qualité de l’extraction est bien sûr primordiale pour la réussite de l’hybridation
qui va suivre. Une mauvaise purification peut conduire à une augmentation des bruits de fond
sur la lame. La deuxième étape consiste à marquer les deux échantillons pour ensuite les
hybrider en utilisant un four et à les nettoyer en utilisant une station de lavage. Les
échantillons sont marqués par des substances fluorescentes (Cy3 et Cy5), c’est-à-dire qu’une
culture est marquée avec un fluorochrome vert, tandis que la seconde est marquée avec un
fluorochrome rouge.
L’hybridation est ensuite réalisée sur une seule puce (simple marquage) ou sur deux
puces (double marquage : un échantillon sur chaque puce). Les ADN marqués sont mélangés
(cible) et placés sur la puce à ADN (sonde). Ce processus d’hybridation est réalisé dans une
station fluidique (four) pour favoriser les liaisons entre séquences complémentaires [9]. La
durée oscille entre 10 à 17 heures en milieu liquide à 60 degrés, en fait à cette température un
fragment d’ADN simple brin ou d’ARN messager reconnaît son brin complémentaire (ADNc)
parmi des milliers d’autres pour former un ADN de double brin (duplex ou double hélice).
L’étape de nettoyage ou lavage des puces a pour but d’ôter de la puce des cibles non
hybridées. La puce est lavée à plusieurs reprises afin qu’il ne reste sur la lame que les brins
parfaitement appariés.
21.2 Acquisition et analyse des images
Suite à l’hybridation, une étape de lecture de la puce permet de repérer les sondes
ayant réagi avec l’échantillon testé. Cette lecture est une étape clé [9]. En effet, sa qualité
conditionne de façon importante la précision des données et donc, la pertinence des
interprétations. L’obtention des images est réalisée par lecture des puces sur des scanners de
haute précision, adaptés aux marqueurs utilisés. Le procédé de détection combine deux lasers,
pour exciter les fluorochromes Cy3 et Cy5. On obtient alors deux images dont le niveau de
gris représente l’intensité de la fluorescence lue. Si on remplace les niveaux de gris par des
niveaux de vert pour la première image et des niveaux de rouge pour la seconde, on obtient en
les superposant une image en fausses couleurs composée de spots allant du vert au rouge
quand un des fluorophores domine, en passant par le jaune (même intensité pour les deux
17
Chapitre2 : Principe des biopuces.
fluorophores). Le noir symbolise l’absence de signal. L’intensité du signal de fluorescence
pour chaque couple (gène, spot) est proportionnelle à l’intensité d’hybridation donc à
l’expression du gène ciblé (voir figure 2.2). Les images sont traitées par des logiciels
d’analyse qui permettent de mesurer la fluorescence de chaque spot sur la lame (estimant les
niveaux d’expression pour chacun des gènes présents sur la puce), mais aussi de relier chaque
sonde à l’annotation correspondante (nom de gêne, numéro de l’ADNc utilisé, séquence de
l’oligonucléotide, etc.). Ainsi, pour chaque spot, l’intensité de chaque marqueur est calculée
puis comparée au bruit de fond.
2.1.3 Transformation des données
Les rapports des intensités de fluorescences en rouge et vert sont généralement
utilisés pour mesurer une variation d’expression d’un gène entre deux conditions (référence et
pathologique, par exemple). Les données d’intensité sont rarement manipulées sans
transformation et la transformation la plus couramment employée est celle qui utilise le
logarithme à base deux. Il existe plusieurs raisons pour justifier cette transformation. D’une
part, la variation du logarithme des intensités est moins dépendante de la grandeur des
intensités, et d’autre part, cette transformation permet de se rapprocher d’une distribution
symétrique et d’obtenir une meilleure dispersion avec moins de valeurs extrêmes.
La normalisation consiste à ajuster l’intensité globale des images acquises sur chacun
des deux canaux rouge et vert, de manière à corriger les différences systématiques entre les
échantillons sur la même lame, qui ne représentent pas de variations biologiques entre les
échantillons et qui tendent à déséquilibrer le signal de l’un des canaux par rapport à l’autre.
Cette procédure de normalisation est définie par les gènes de référence. Les gènes de
référence en moyenne ne doivent pas changer d’expression entre deux conditions. La
normalisation est effectuée à partir de toutes les sondes présentes sur le support pour éliminer
les différences entre les différentes puces liées aux variations de quantité de départ, aux biais
de marquage ou d’hybridation et aux variations du bruit de fond [12].
18
Chapitre2 : Principe des biopuces.
Figure 2.2 – Processus d’acquisition d’image.
Présentation des données de puces à ADN : après les transformations décrites cidessus, les données recueillies pour l’étude d’un problème donné sont regroupées sous forme
de matrice avec une ligne par couple (gène, sonde) et une colonne par échantillon (voir table
1.1) Chaque valeur de mij est la mesure du niveau d’expression du i−ème gène dans le j−ème
échantillon, où i = 1, . . . , M et j = 1, . . . , N [11].
Echantillon 1
Gène id
Echantillon 2
……….
Gène 2
……….
Gène 3
……….
….
….
….
….
Gène N
m M1
m M2
….
……….
….
Gène 1
Echantillon M
……….
m MN
Table 2.1 – Matrice d’expression des gènes.
19
Chapitre2 : Principe des biopuces.
Dans les étapes que l’on vient de voir, plusieurs d’entre elles peuvent être source
d’imprécision ou d’erreurs dans les mesures obtenues. De plus, le coût d’une puce à ADN et
le coût d’une analyse étant très élevé l’on ne dispose à l’heure actuelle que de quelques
dizaines d’expériences pour l’étude d’un problème donné (une pathologie par exemple).
Pourtant chaque expérience a permis de relever le niveau d’expression pour plusieurs milliers
de gènes. Les matrices de données qui sont actuellement disponibles ont donc les
caractéristiques suivantes:
1. Grande dimensionnalité due au nombre élevé de descripteurs (gènes)
2. Nombre limité d’échantillons.
2.2
Plateformes
Il existe actuellement deux types de puces à ADN qui dominent le marché :
– Les puces à ADNc qui fonctionnent avec des micros points contenant des fragments d’ADN
sur un support de verre. La société Agilent est l’une des plus grandes industries qui les
commercialisent.
– Les puces à oligonucléotides qui reposent sur le principe de synthèse in situ de milliers de
séquences distinctes d’oligonucléotides. La société Affymetrix est l’unique détenteur de cette
technologie [25].
2.2.1 Technologie Agilent
Les puces à ADNc de la technologie Agilent ont été les premières puces à être
développées. Le pionnier en la matière fut Patrick Brown et ses associés de l’université de
Stanford. Elles sont construites grâce à des machines robots qui déposent des points appelés
spots contenant des fragments d’ADN (50-150 m) dans une lamelle de verre.
2.2.1.1 Avantages
L’avantage des puces à ADNc de Agilent Technologies est le faible coût qu’elles
comportent grâce à un prix très abordable. L’utilisation de ces puces ne nécessite pas de
matériel spécifique pour effectuer les expériences et son accessibilité facilite la récupération
des résultats à des fins d’analyse. Notamment l’importation de données en utilisant des
équipements universels existants dans la plupart des laboratoires de recherche.
20
Chapitre2 : Principe des biopuces.
2.2.1.2 Inconvénients
Malgré leur utilisation très répandue, les puces à ADNc ont quelques inconvénients
importants. En effet, avant la fabrication de la puce, il est nécessaire d’effectuer la synthèse, la
préparation et la purification de l’ADN avant le dépôt des fragments. Ces étapes de
préfabrication restent laborieuses et nécessitent une main-d’œuvre spécialisée.
En outre, plusieurs dispositifs nécessaires pour l’impression des gènes sur le support
alourdissent leurs coûts de fabrication. Il est également important de noter qu’au cours des
expériences en laboratoires il se peut que des séquences similaires entre clones représentant
une même famille de gènes puissent entraîner une défaillance dans la détection de gènes
spécifiques et partiellement différents. Ce phénomène est connu sous le nom d’hybridation
croisée.
2.2.2 Technologie Affymetrix
Elles dérivent à l’origine d’un projet de séquençage par hybridation. Les sondes sont
des oligonucléotides synthétisés par une technique de photolithographie. Cette technique
consiste à diriger une lumière sur des sites spécifiques de la puce ce qui active la réaction
d’oligosynthèse. On ajoute également des oligonucléotides dont la séquence varie pour une
seule base pour confirmer que le signal obtenu pour chacun des gènes est bien spécifique. On
hybride une seule expérience par puce et l’intensité de fluorescence mesurée par un scanner
permet une mesure de l’abondance relative de chacun des ARNm présent dans l’échantillon
biologique étudié [27].
2.2.2.1 Avantages
La synthèse d’oligonucléotides comprend plusieurs avantages notamment la vitesse, la
spécificité et la reproductibilité. La vitesse de génération des données sur la puce est un
avantage crucial, puisque il suffit juste de repérer les séquences de gènes d’intérêt de l’ADN,
donc on ne perd pas de temps à la manipulation des ressources d’ADNc telles que la
préparation et la détermination précise de la manipulation clones bactériens, les produits de la
Réaction en Chaine par Polymérase (PCR) ou des ADNc, réduisant ainsi le risque de
contamination. Cependant, avant la fabrication de la matrice, la connaissance préalable de la
séquence du génome est nécessaire pour concevoir les ensembles d’oligonucléotides, et
lorsque cela n’est pas disponible, d’autres méthodes d’impression du matériel génétique isolé
peuvent être utilisées.
21
Chapitre2 : Principe des biopuces.
2.2.2.2 Inconvénients
Il existe plusieurs inconvénients à l’utilisation de puces à oligonucléotides notamment
les limites pratiques en termes de disponibilité et flexibilité de fonctionnement. D’abord la
synthèse in situ d’oligonucléotides nécessite d’avoir des équipements spécialisés très coûteux
pour procéder à l’hybridation, la coloration des étiquettes, le lavage ainsi que le processus de
quantification. En outre, malgré leur essor rapide dans le marché, ce qui a contribué à la
réduction de leur prix, celles-ci restent très coûteuses. Deuxièmement, bien que les séquences
utilisées confèrent une bonne spécificité, elles réduisent la sensibilité et l’attachement des
séquences à la puce en comparaison aux puces à ADNc. Cependant cette faible sensibilité de
la puce est compensée par l’utilisation de multiples sondes.
2.3
Domaines d’application
Les puces à ADN permettent des tests plus rapides, plus sensibles et plus spécifiques.
En évitant certaines étapes préliminaires telle que la culture, cela permet d’obtenir un résultat
en quelques heures là où plusieurs jours étaient nécessaires. Elles sont utiles dans divers
domaines très important tels que l’environnement, les diagnostics médicaux les expertises
médico-légales et bien d’autres domaines [24].
2.3.1 L’environnement
Les secteurs de la défense et de l’environnement font partie des diverses applications
des puces à ADN, notamment pour la détection rapide et à bas coût de substances organiques,
principalement des agents pathogènes dilués dans l’environnement.
2.3.2 Diagnostics médicaux
La puce à ADN a encore un grand rôle à jouer dans une autre application des
polymorphismes et de la détection banalisée de ceux-ci. Cela pourrait prévenir les
prédispositions qu’a un patient à diverses maladies génétiques.
La commercialisation de ces systèmes de petite taille, voire même portables pourrait être
utilisée en hôpital et même par les médecins traitants. On attend que des labo-puces puissent
faire en un temps réel et continu l’analyse de certains signes vitaux afin d’en prescrire
immédiatement le traitement adéquat (par exemple le taux de glucose sanguin pour les
diabétiques).
22
Chapitre2 : Principe des biopuces.
2.3.3 Expertise médico-légale
Le but est l’identification d’un corps humain dans le cadre d’enquêtes policières ou
judiciaires. Les analyses sur le terrain étant très souvent complexes ainsi que la confidentialité
et le respect de la procédure judiciaire assez lourdes, il sera souhaitable d’avoir sur les lieux
d’enquêtes des systèmes portables d’analyse de l’ADN, permettant ainsi d’affiner la recherche
d’échantillons.
2.4
Banques de données génomiques
2.4.1 La MGED (Microarray Gene Expression Data Society)
La MGED a initié le développement et la promotion de standard pour le stockage et le
partage des données de puces à ADN basées sur l’expression des gènes et du résultat des
études effectuées sur ces données. Parmi ces standards l’on peut citer le MIAME (Minimum
Information About a Microarray Experiment),
MIAME est un standard conceptuel décrivant l’information minimum requise pour une
interprétation et une vérification propre des expériences des puces à ADN tandis que MAGEML et MAGE-TAB sont des standards définissant le format MIAME (conformité de la
description des données et des expériences).
2.4.1.1 MIAME
Le standard MIAME [12] requiert que les informations suivantes soient fournies pour
les publications basées sur les expériences de puce à ADN :
1. Les données brutes résultant de l’analyse de l’image de chaque puce (fichiers CEL)
2. Les données finales après le prétraitement qui est la matrice d’expression des gènes
3. Les informations essentielles à propos de l’annotation de l’échantillon et des facteurs
expérimentaux.
4. Le plan expérimental incluant les relations entre échantillons, puces et fichiers de données.
5. Une description de la conception de la puce (information sur les sondes et leurs numéros
dans la base de données d’où elles proviennent).
6. Les protocoles de traitement expérimentaux des données. Le standard MIAME ne requiert
pas que les données soient dans un format spécifique, il recommande toutefois l’utilisation du
format MAGE-TAB ou MAGE-ML.
23
Chapitre2 : Principe des biopuces.
2.4.1.1.1 MAGE-ML
Le MAGE-ML est un format de données basé sur XML permettant le partage de
fichiers MIAME. C’est la représentation XML du Microarray Gene Expression Object Mode l
(MAGE-OM) dans le cadre de l’initiative MGED.
Malgré le fait qu’il est été utilisé par de nombreux outils et bases de données, il n’a pas été
universellement accepté principalement à cause de sa complexité [14]. Il est toujours utilisé
mais le nouveau format MAGE-TAB est recommandé en remplacement.
24.1.1.2 MAGE-TAB
Le MAGE-TAB est un simple tableur (ou généralement un fichier texte délimité par
des tabulations) permettant le partage de fichier MIAME. Il ne requière pas de connaissance
particulière du XML et peut être utilisé à la place du format MAGE-ML.[13].
Il définit 3 types de fichiers nécessaires à la description d’une expérience de puce à ADN qui
sont :
1. le fichier IDF (Investigation Description Format) qui donne des informations générales sur
l’expérience,
2. ADF (Array Design Format) qui décrit le plan d’un type tableau utilisé
dans une expérience,
3. SDRF (Sample and Data Relationship Format) contenant les informations nécessaires au
MIAME ne se trouvant pas dans les autres formats et les données brutes et prétraitées.
2.4.2 Gene Expression Omnibus (GEO)
Gene Expression Omnibus [8] est un entrepôt public à haute capacité de traitement des
données génomique et protéomique, essentiellement MIAME. Il a été établi en 2000 au
National Center for Biotechnology Information (NCBI). Les données expérimentales peuvent
être soumises en remplissant un formulaire sur le web ou comme un paquet de fichiers, feuille
de calcul, fichier texte SOFT (Simple Omnibus Format in Text) ou fichier XML
MINiML(MIAME Notation in Markup Language).
Les fichiers sont stockés sous la forme de 3 types d’enregistrement basiques :
– Plateform : Description du tableau
– Sample : Description d’un échantillon biologique et les résultats de son hybridation
– Series : Description de l’expérience réalisée sur un groupe d’échantillon Basées sur les
études expérimentales soumises, les données dans GEO sont organisées dans des objets de
24
Chapitre2 : Principe des biopuces.
haut niveau représentés par le type Dataset(Jeu de données), qui est une collection
d’échantillons biologiques comparables ayant été traités sur la même plateforme et dont les
mesures sont les résultats de ce traitement et de calculs cohérents sur ce jeu de données, et
Profils, qui correspond au niveau d’expression d’un gène dans tous les échantillons d’un jeu
de données.
2.4.3 ArrayExpress
ArrayExpress [15] est une base de données publique d’expérience de puce à ADN et
de profils d’expression des gènes établie en 2002 à l’European Bioinformatics Institute(EBI).
Elle est constituée de 3 composantes :
– ArrayExpress repository : Qui est conforme au standard MIAME. Les expériences peuvent
être soumises à cet entrepôt grâce à l’outil en ligne MIAMExpress ou en chargeant des
tableurs (MAGE-TAB de préférence)
– ArrayExpress Warehouse : qui est une base de données de gènes, sélectionnés à partir de
l’ArrayExpress repository, dont les profils d’expression sont indexés.
– ArrayExpress Atlas : Qui est une nouvelle base de données résumée pour interroger les
gènes d’expression organisés et classés à travers de multiples expériences et conditions.
Le scannage d’une puce permet de produire une image. Des repères sur la puce permettent de
retrouver sur celle-ci, la localisation de chaque carré de sonde qui correspond à 1 secteur en
ignorant les pixels externes. Un algorithme est utilisé pour calculer l’intensité de la cellule
(secteur) à partir des pixels centraux (distribution des intensités par pixels : calcul du 75ème
centile= intensité du spot). L’intensité moyenne est égale à la valeur d’expression relevée par
la sonde qui est égale au fichier brute de données. Pour les puces Affymetrix, l’image d’une
puce est stockée dans un fichier à l’extension DAT et les intensités des sondes obtenues à
partir de l’analyse des images sont stockées dans un fichier à l’extension CEL. Certaines
informations additionnelles telles que l’identifiant associant une sonde ou paire de sondes à un
ensemble de sondes est stocké dans un fichier CDF.
25
Chapitre2 : Principe des biopuces.
Figure 2.3 – Différents fichiers intervenant de l’importation aux résultats d’analyse.
Le passage du fichier à l’extension DAT à celui à l’extension CEL nécessite
l’utilisation de logiciel Affymetrix. A partir des données brutes récupérables dans de
nombreux dépôts publiques, des prétraitements seront effectués sur celles-ci afin de les
adapter à l’analyse souhaitée.
Un fichier CEL (Cell Intensity File) sauvegarde les données d’intensité pour chaque
sonde sans traitement obtenues à partir d’un fichier DAT. Une valeur représentative de
l’intensité est sauvegardée pour chaque cellule (pixel) de l’image. Les deux dernières versions
de ce fichier, la 3 et la 4 sont plutôt différentes. Dans la version 3, le format du fichier CEL
est similaire à celui d’un fichier au format INI sous Windows. Il est divisé en section contenue
entre une balise ouvrante et une fermante. Les différents noms de section sont
"CEL","HEADER", "INTENSITY", "MASKS", "OUTLIERS" et "MODIFIED" et les
données dans chaque section sont de la forme ETIQUETTE=VALEUR.
La version 4 du fichier est sous la forme binaire et les valeurs sont sauvegardées dans
le format little-endian. Dans cette version il n’existe pas de sections mais des items stockant
approximativement les mêmes données que la version 3 en utilisant les types de données
integer, DWORD, float et short.
CDF (Chip Description File) est un fichier de description de puces Affymetrix qui décrit
l’agencement d’un tableau GeneChip Affymetrix. Il contient les informations concernant les
caractéristiques de conception du tableau dela sonde, l’utilisation et le contenu de la sonde, et
26
Chapitre2 : Principe des biopuces.
les paramètres d’analyse et de scannage. Il existe 2 types de formats pour ce fichier. Le
premier est un fichier texte au format ASCII utilisé par les logiciels MAS et GCOS1.0 et le
second est un fichier au format XDA utilisé par les anciennes versions de GCOS. Le fichier
texte au format ASCII est similaire à un fichier texte à l’extension INI sous Windows. Il est
divisé en sections suivant le même principe que les fichiers CEL et les différentes sections
sont : "CDF", "Chip","QCI", "UnitJ" et "UNITJ_BlockK". Le format XDA quant à lui est un
fichier binaire permettant un accès rapide aux données tout en minimisant l’espace de
stockage. Il utilise le format little-endian pour stocker les valeurs dans ce fichier. Il a la même
présentation que les fichiers CEL au format binaire et utilise les mêmes types de données.
2.5
Les outils de traitement
2.5.1
Les outils d’analyse d’image
Le principe général de l’analyse d’image est de convertir l’image en valeurs
numériques quantifiant l’expression des gènes. Il existe des logiciels d’analyse d’image
comme : ScanAlyze, Genepix Pro (voir Figure2.4).
Figure 2.4 visualisation d’un scan à l’aide de GenePix Pro
27
Chapitre2 : Principe des biopuces.
2.5.2 Langage R
D’après The Bioinformatics Organization [26] , R est actuellement l’outil le plus
utilisé pour le traitement numérique des données biologiques.
R est un outil d’analyses statistiques et graphiques qui possède son propre langage de
programmation. Nommé ainsi en référence à ses deux auteurs, Ross Ihaka et Robert
Gentleman. R est distribué gratuitement suivant les termes des licences publiques (GPL).
Les codes sources et modules d’applications sont donc librement mis à la disposition de
l’ensemble de la communauté scientifique.
Dans un premier temps développé pour les systèmes d’exploitation libres (et gratuits)
à savoir UNIX et Linux, R est très vite devenu disponible pour les systèmes d’exploitation
Windows et Mac-OS. Le noyau de R est implémenté essentiellement en langage C et
FORTRAN. Depuis 1997, un groupe de développeurs (R Core Team), s’attache au maintien
du bon développement des différentes versions de l’outil qui ne cesse de s’améliorer en
termes de fonctionnalités graphiques et domaines d’applications de l’exploitation des données
géologiques à la génomique.
2.5.3 Projet BioConductor ( 2000 )
Compte tenu des propriétés de R en matière de fonctions, puissance de calcul ainsi que
le besoin croissant d’outils mathématiques pour l’analyse des données biologiques, des
développeurs au sein de la communauté R ont proposé le projet BioConductor.
Figure 2.5 – Page d’accueil du projet BioConductor.
BioConductor est une initiative de collaboration entre statisticiens, mathématiciens,
biologistes et développeurs afin de créer des outils informatiques (algorithmes, logiciels) pour
résoudre des problèmes de biologie et de bioinformatique. Les principaux buts de ce projet
28
Chapitre2 : Principe des biopuces.
sont le développement, en collaboration, de logiciels innovants ainsi que leur vaste diffusion
et utilisation, pour une reproductibilité des résultats de recherche.
Né en 2000, BioConductor, associé à R, reçoit en 2002 le titre de Insightful Innovation
Award Open Source Open Development SoftwareProject.
En outre, les librairies dédiées à l’analyse des données de génomique disponibles dans
le projet BioConductor permettent non seulement l’analyse des données de puces à ADN (e.g.
librairies Affy, marray, limma) mais aussi des expériences SAGE (SAGElyzer), de la
spectrométrie de masse (PROcess) ou encore l’annotation des gènes (GOstats).
29
Chapitre2 : Principe des biopuces.
2.6
Synthèse du chapitre
Nous avons présenté dans ce chapitre les différentes étapes d’une analyse par puce à
ADN, telles que la préparation des cibles et l’hybridation, acquisition et analyse des images et
transformation des données.
Nous avons aussi présenté les différentes banques de données génomiques publiques
et les différents outils de traitement tels que les outils d’analyse des images et les outils de
traitement numérique des données biologiques.
30
Chapitre 3
Etapes d’analyse des données de biopuces .
Sommaire
Chapitre3 : Etapes d’analyse des données de biopuce
3.1 Prétraitement des données (Preprocessing)……………………………………………. 33
3.1.1
Etapes du prétraitement des données …………………………………..……...33
3.1.1.1 Correction du bruit de fond (Background Correction)…………………… 33
3.1.1.2 Normalisation…………………………………………………………….. 33
3.1.1.2.1 Normalisation des puces Affymetrix ……………………………....34
3.1.1.2.1.1 Normalisation des quantiles (quantiles normalization) …34
3.1.1.3 Sommarisation……………………………………………………………..36
3.2
Sélection des attributs pour traitement des données …………………………...…….36
3.3
Synthèse du chapitre ……………………………………………………………....…38
Chapitre3 : Etapes d’analyse des données de biopuces
3.1
Prétraitement des données (Preprocessing)
La technique utilisée avec les puces à ADN est soumise à de nombreuses variations
expérimentales qui rendent impossible l’exploitation directe des résultats. Pour ne garder que
Les variations réelles entre les différents échantillons dues aux différences de traitement qu’ils
ont subis, le seul moyen est de procéder à un prétraitement des données et une normalisation
des données pour éliminer ces différences. Cette étape permet d’adapter les données au type
d’analyse souhaité.
3.1.1
Etapes du prétraitement des données
3.1.1.1 Correction du bruit de fond (Background Correction)
Après l’hybridation, une puce à ADN est scannée pour pouvoir générer des fichiers
où les résultats de l’hybridation sont traduits numériquement (Fichiers CEL). On obtient dans
ces fichiers une quantité énorme d’information. On a pour chaque gène : la moyenne des
intensités de tous les pixels sur la zone correspondante au gène, la médiane de ces intensités,
l’écart-type de ces intensités et le nombre de pixels dans la zone considérée. Différentes
méthodes ont été proposées pour cette étape ; elles peuvent être rangées en trois catégories :
1. la moyenne ou la médiane des valeurs d’intensités des sondes comme estimateur du bruit
de fond global (Constant Background Correction).
2. les pixels se trouvant près du spot pour estimer le bruit de fond local (Local Background
Correction). Un problème avec cette catégorie de méthodes est que les valeurs d’intensités
utilisées comme estimateurs de bruit de fond local peuvent être supérieures à celles des spots.
Ce qui peut donner des intensités négatives ou fausses.
3. des filtres non-linéaires pour estimer le bruit de fond (MO – Morphological Opening –
Soille). Les méthodes de cette catégorie semblent meilleures par rapport à celles des deux
premières catégories. Cela est dû à leurs robustesses face aux artefacts locaux et variations.
[21].
3.1.1.2 Normalisation
Il est nécessaire d’effectuer une normalisation afin de s’assurer que les différences
observées dans les intensités sont dues à des différences réelles d’expression et non à des
artefacts expérimentaux. Lors de la fabrication de puces à ADN, les sources de variabilité sont
nombreuses. On peut citer, l’amplification des sondes par la technique PCR et leur
positionnement sur la puce, l’hybridation sonde/cible, le nettoyage et le séchage de puces ect..
33
Chapitre3 : Etapes d’analyse des données de biopuces
Le but de la normalisation est de corriger les différences systématiques entre les mesures sur
la même puce qui ne représentent pas de véritables variations biologiques. Elle permet la
comparaison de plusieurs réplicas d’une même expérience et se focalise sur les erreurs
systématiques, qui contribuent à sur ou sous évaluer les valeurs mesurées, plutôt que sur les
erreurs stochastiques.
Avant l’application d’une transformation logarithmique, la plupart des intensités
mesurées sont faibles, la transformation logarithmique permet de recentrer la distribution et de
la rendre symétrique, ce qui facilite l’utilisation des statistiques. A noter que la transformation
logarithmique à base 2 est la plus utilisée.
Figure 3.1 –Nuage de points sur une puce à ADN avant et après normalisation logarithmique.
3.1.1.2.1 Normalisation des puces Affymetrix
Dans le cas des puces à oligonucléotides [17], comme les puces Affymetrix, la
normalisation est réalisée entre des répétitions de lames ou l’ensemble des lames d’une ou de
plusieurs expériences. On parle souvent de normalization between-array. La normalisation la
plus utilisée est la normalisation des quantiles.
34
Chapitre3 : Etapes d’analyse des données de biopuces
3.1.1.2.1.1 Normalisation des quantiles (quantiles normalization)
Pour cela, il existe une méthode complète dite de centralisation permettant à la fois
de normaliser et de calibrer les données de façon à permettre les comparaisons inter-lames.
Cette méthode non paramétrique appelée aussi “ normalisation des quantiles “ suppose que la
distribution de l’abondance des gènes est presque la même dans tous les échantillons.
L’algorithme comporte plusieurs étapes :
On trie les gènes par colonnes selon leurs intensités.
1. On calcule la moyenne de chaque ligne.
2. On remplace les valeurs de chaque élément ligne par la moyenne correspondante.
3. On redistribue les valeurs nouvelles selon l’ordre d’origine des intensités.
Figure 3.7 – Nuage de points avant et après normalisation sur 4 puces Affymetrix. (a) Nuage
de points avant normalisation.(b) Nuage de points après normalisation.
35
Chapitre3 : Etapes d’analyse des données de biopuces
3.1.1.3 Sommarisation
C’est une étape propre à toute plateforme pour laquelle un même transcrit est sondé
par plusieurs sondes que l’on doit résumer en une seule valeur d’expression.
3.2
Sélection des attributs pour traitement des données
Le principe de la sélection des attributs consiste à évaluer chaque attribut pour lui
assigner un score de pertinence qui permet un classement des attributs. Les attributs les
mieux classés c’est-à-dire les plus pertinents seront sélectionnés pour la phase du traitement.
L’avantage
de la sélection est qu’elle peut être utilisée lorsqu’on travaille avec un très
grand nombre d’attributs car elles sont de complexité raisonnable.
Parmi les méthodes de sélection est celles dites méthodes de filtres ,nous détaillons dans la
suite de cette section les critères de filtre qui ont été utilisés dans le domaine de la
bioinformatique pour la sélection de gènes. La mesure de pertinence utilisée dans une
méthode filtre peut être une mesure statistique classique telle que la t-statistique et le test de
Fisher. Certaines mesures de filtrage ont été proposées spécifiquement pour la sélection de
gènes telles que B/W ou SNR .
a) t-statistique :
où nk , x̄k et sk2 sont la taille, la moyenne la variance des classes k = 1, 2.pour chaque gène
une t − valeur est calculée et si on souhaite sélectionner p gènes, on retient p/2 gènes avec les
plus grandes valeurs positives (gènes fortement exprimés dans la classe 1) et les p/2 gènes
avec les plus “grandes” valeurs négatives (gènes fortement exprimés dans la classe 2).
b) Fisher
Le test de Fisher est défini comme suit :
où x̄k et sk2 sont la moyenne et l’écart-type de l’attribut pour la classe k = 1, 2.un score
important indique donc que les moyennes des 2 classes sont significativement différentes.
36
Chapitre3 : Etapes d’analyse des données de biopuces
c) BW
Le score discriminant BW est basé sur le rapport entre dispersion entre classes et
dispersion intra-classes pour un attribut j ,
ce rapport est obtenu comme suit :
∑i ∑j I(yi=k)( x̄k j- x̄ j )2
BW(j)=
∑i ∑j I(yi=k)( x̄i j- x̄k j )2
où x̄ j et x̄ kjdénotent respectivement la moyenne d’un attribut j à travers tous les échantillons
et à travers les échantillons appartenant à la classe k seulement.
e) SNR ou S/N
Ce critère est défini comme suit :
où x̄ kj , skjdénotent la moyenne et l’écart-type de l’attribut j pour les échantillons de classes k
= 1, 2. De grandes valeurs de |P (j )| indiquent une forte corrélation entre les valeurs de
l’attribut et la distinction de classes[1].
37
Chapitre3 : Etapes d’analyse des données de biopuces
3.3
Synthèse du chapitre
Nous avons vu dans ce chapitre les différentes étapes du prétraitement des données y
compris : la correction du bruit de fond et la normalisation.
Puis nous avons présenté les différents critères statistiques utilisés pour la sélection des gènes
comme le test de Fisher et le test BW.
38
Chapitre 4
Classification des données de biopuces.
Sommaire
Chapitre 4 : Classification des données de biopuces.
4.1
Classification …………………………………………………………………………41
4.1.1
Buts et modalités de la classification ………………………………………………41
4.1.2
La classification, un domaine multidisciplinaire………….……….……..……..….42
4.1.2 .1 Classification et statistique ………………………………………………..…..42
4.1.2.2 Classification et programmation mathématique………………………...……. 43
4.1.2.3 Classification et apprentissage automatique …………………………………..43
4.1.2.4 Classification et aide multicritère à la décision ……………………………….44
4.2 K-ppv………………………...………………………………………...……………….. 44
4.3 Algorithmes génétiques …………………………………………………………………45
4.3.1 Représentation des solutions ………………………………………………………..46
4.3.2 Fonction d’évaluation………………………………………………………………. 46
4.3.3 Opérateurs génétiques ………………………………………………………….…47
4.3.3.1 L’opérateur de sélection ……………………………………………………..47
4.3.3.2 L’opérateur de croisement ………………………………………………....51
4.3.3.3 L’opérateur de mutation…………………………………………………...... 51
4.3.4 Phase de remplacement………………………………………………………….… 51
4.4
Algorithme génétique à double explorations…………………………………..…..…. 52
4.5
Synthèse du chapitre…………………………………………………………….….... 53
Chapitre 4 : Classification des données de biopuces.
4.1
Classification
La classification est l’une des techniques les plus anciennes d’analyse et de
traitement de
données. Plusieurs définitions ont été proposées par les spécialistes du
domaine :
 Selon [35]: "Effectuer une classification, c'est mettre en évidence des relations
entre des objets, et entre ces derniers et leurs paramètres".
 Un problème de classification selon [36]: "consiste à affecter des objets, des
candidats, des actions potentielles à des catégories ou des classes prédéfinies".
 [37] ont un point de vue axé sur l'apprentissage, ils définissent la classification
par : "La classification est l'action de regrouper en différentes catégories des
objets ayant certains points communs ou faisant partie d'un même concept, sans
avoir connaissance de la forme ni de la nature des classes au préalable, on parle
alors
de
problème
d'apprentissage
non
supervisé
ou
de classification
automatique, ou l'action d'affecter des objets à des classes prédéfinies, on parle dans
ce cas d'apprentissage supervisé ou de problème d'affectation" .
 Retenons aussi la définition de [38]: "Le processus de classification cherche à
mettre en évidence les dépendances implicites qui existent entre les objets, les
classes entre elles, les classes et les instances. La classification recouvre les
processus de reconnaissance de la classe d'un objet, et l'insertion éventuelle
d'une classe dans une hiérarchie. Ce mode de raisonnement permet de reconnaître un
objet en identifiant ses caractéristiques, relativement à la hiérarchie étudiée. La
classification fait intervenir un processus de décision d'appartenance"
4.1.1 Buts et modalités de la classification
La classification repose sur des objets à classer. Les objets sont localisés dans un
espace de variables (ont dit aussi attributs, caractéristiques ou critères). Il s’agit de les
localiser dans un espace de classes. Ce problème n’a de sens que si on pose l’existence d’une
correspondance entre ces deux espaces. Résoudre un problème de classification, c’est
trouver
une application de l’ensemble des objets à classer, décrits par les variables
descriptives choisies, dans l’ensemble des classes. L’algorithme ou la procédure qui réalise
cette application est appelé classifieur.
41
Chapitre 4 : Classification des données de biopuces.
Nous appellerons :
 classificateur : une règle établie (estimée) de classification, c’est-à-dire une fonction
sur l’espace des caractéristiques vers l’espace des classes ;
 classification : la construction d’un classificateur ;
 classement : la mise en œuvre d’un classificateur existant.
Généralement, l’inférence statistique traditionnelle peut couvrir plusieurs problématiques :
 exploratoire : déceler des relations hypothétiques ;
 prédictive : valider la performance globale d’un système de relations ;
 explicative : valider des composantes détaillées d’un système de relations·
comprendre leurs contributions à ce système.
On retrouve des distinctions voisines en classification :
 On appelle classification automatique, ou non supervisée, un ensemble de
problématiques où l’espace des classes n’est pas spécifié à l’avance. Il s’agit
d’identifier,
voire
de
construire,
un
système
de
classes
sur
la
base
d’observations dans l’espace des caractéristiques.
 On appelle classification supervisée un contexte où un ensemble de classes (et une
structure sur cet ensemble) est spécifié à l’avance.
4.1.2 La classification, un domaine multidisciplinaire
La classification a fait l’objet de plusieurs travaux dans différents domaines de
recherche.
Nous allons en particulier discuter des liens que la classification entretient avec la
statistique, la programmation mathématique, l’apprentissage automatique et l’aide
multicritère à la décision.
4.1.2 .1 Classification et statistique
Les méthodes statistiques sont les techniques les plus anciennes pour la
résolution des problèmes de classification supervisée. Elles sont issues de l’analyse des
données : Elles supposent l’existence d’un modèle probabiliste décrivant les données.
42
Chapitre 4 : Classification des données de biopuces.
L’objectif de ces méthodes est ainsi de caractériser ce modèle. La littérature nous offre
une multitude de méthodes et d’applications statistiques [39]. L’objectif de ce type de
techniques est d’arriver à classer de nouveaux cas, en
réduisant
le taux d’erreurs de
classification. Selon [40] , ces méthodes ont fait leurs preuves pour des données assez
simples. Avec le développement de la théorie statistique d’apprentissage, de nouvelles
méthodes de classification s’appuyant sur la théorie statistique et se basant sur l’apprentissage
sont nées.
4.1.2.2 Classification et programmation mathématique
La programmation mathématique dans un premier temps, a été utilisée en
classification automatique [41] . Le problème de partitionnement est souvent formulé
comme un programme mathématique. Le nombre de classes de la partition est donné à
l’avance. L’objectif à optimiser peut refléter un souci d’homogénéité intra-classe ou de
différenciation interclasses. La résolution fait appel à une variété de techniques de
programmation mathématique discrètes, exactes ou heuristiques.
En classification supervisée, la programmation mathématique a été utilisée pour optimiser la
capacité prédictive du classificateur à construire. Des formes d’approximations très
variées ont été proposées, incorporant parfois une mesure d’erreurs empirique, parfois des
repères paramétrés, etc. Toutefois, la contribution de la programmation mathématique est
beaucoup plus importante en classification automatique qu’en classification supervisée.
4.1.2.3 Classification et apprentissage automatique :
[42] définit l’apprentissage automatique par «une tentative de comprendre et de
reproduire l’habileté humaine d’apprendre de ses expériences passées et de s’adapter dans
les systèmes artificiels». Par apprentissage, on entend la capacité de généraliser et de
résoudre de nouveaux cas à partir des connaissances mémorisées et des expériences réussies
dans le passé. Appelé souvent la branche connexionniste de l’intelligence artificielle,
l’apprentissage automatique puisait initialement ses sources en neurosciences. Au cours
des dernières années, il s’est détaché de ses origines pour faire appel à des théories et
outils d’autres disciplines : théorie de l’information, traitement du signal, programmation
mathématique, statistique . Des préoccupations convergentes en analyse de données ont
donné naissance à la théorie de l’apprentissage statistique [43].
43
Chapitre 4 : Classification des données de biopuces.
Il existe trois principales tâches d’apprentissage automatique : apprentissage supervisé,
apprentissage non supervisé et apprentissage par renforcement.
Pour un problème de classification, un système d’apprentissage supervisé permet de
construire une fonction de prise de décision (un classificateur) à partir des actions
déjà classées (ensemble d’apprentissage), pour classer des nouvelles actions. Dans le
cas de l’apprentissage non-supervisé, on dispose d’un nombre fini de données
d’apprentissage sans aucune étiquette. L’apprentissage par renforcement a la particularité que
les décisions prises par l’algorithme d’apprentissage influent sur l’environnement et les
observations futures [42].
La classification compte parmi les plus grandes réussites de l’apprentissage
automatique. plusieurs applications illustrent la diversité des domaines d’utilisation :
moteur
de recherche,
reconnaissance
de
la
parole,
reconnaissance
de
formes,
reconnaissance de l’écriture manuscrite, aide au diagnostic médical, analyse des marchés
financiers, bioinformatique, sécurité des données, etc.
4.1.2.4 Classification et aide multicritère à la décision
Les méthodes de classification multicritère partent en général de classes prédéfinies,
elles relèvent donc de l’apprentissage supervisé [44] ; [36] mais avec une composante
contextuelle qui peut être importante. C’est pourquoi elles se distinguent par des modalités
particulières d’apprentissage. La classification en aide multicritère à la décision se situe dans
le cadre de la problématique du tri. Selon [45] «Elle consiste à poser le problème en terme du
tri des actions par catégorie». Les actions sont évaluées sur plusieurs critères potentiellement
conflictuels et non commensurables. Contrairement aux autres approches de classification,
l’aide multicritère à la décision ne cherche pas uniquement à développer des méthodes
automatiques pour analyser les données afin de les classer. Dans le cadre de l’affectation
multicritère, les préférences du décideur (l’humain) sont aussi prises en compte. Ainsi,
selon [36]
«L’objectif des méthodes de classification multicritère n’est pas de décrire au
mieux les données, mais de respecter un ensemble de préférences qui auront été articulées
auparavant».
4.2 k-PPV
L’algorithme des k plus proches voisins (noté k-PPV) [40] ,[39],[46] est une méthode
basée sur la notion de proximité (voisinage) entre exemples et sur l’idée de raisonner à partir
44
Chapitre 4 : Classification des données de biopuces.
de cas similaires pour prendre une décision. Autrement dit des entrées xi semblables devraient
avoir des valeurs yi semblables.
Le principe est le suivant : on note x un nouvel exemple décrit par un vecteur de p
attributs. On trouve alors, parmi l’ensemble d’exemples d’apprentissage, les k plus proches
voisins deux et on associe à x la classe majoritaire parmi ses k voisins lui ressemblant le plus
dans la base d’apprentissage. Cette méthode dépend donc des trois éléments suivants:
1. Le nombre de voisins retenus.
2. La mesure de distance entre exemple.
3. La combinaison des classes.
Le résultat dépend du réglage de ces paramètres. Pour le premier critère, on utilise
généralement un nombre de voisins compris entre 1 et 7. Pour le deuxième paramètre, la
méthode nécessite une métrique pour mesurer la proximité entre l’exemple à classer x et
chacun des exemples de l’ensemble d’apprentissage. Lorsque les attributs sont numériques la
distance euclidienne est généralement utilisée. Le troisième paramètre indique de quelle
manière on combine les valeurs associées aux voisins pour obtenir la valeur associée à x. pour
la classification, la classe retenue pour x est la classe majoritaire chez ses voisins.
La méthode est simple puisqu’il n’y a pas besoin d’apprentissage d’un modèle de
classification et son pouvoir prédictif est souvent bon. Mais la performance de cette méthode
diminue lorsque la dimension augmente, puisque pour chaque nouvelle classification, il est
nécessaire de calculer toutes les distances de x à chacun des exemples d’apprentissage. De
plus, la performance dépend fortement de k, le nombre de voisins choisi et il est nécessaire
d’avoir un grand nombre d’observations pour obtenir une bonne précision des résultats.
4.3 Algorithmes génétiques
Les algorithmes génétiques sont des algorithmes de recherche inspirés des mécanismes
de l’évolution naturelle des êtres vivants et de la génétique.
John H. Holland a exposé ses premiers travaux sur les algorithmes génétiques en 1962.
Les algorithmes génétiques partent de l’idée d’utiliser les principes des processus d’évolution
naturelle en tant que technique d’optimisation globale. Dans l’évolution naturelle, le problème
auquel chaque espèce est confrontée est de chercher à s’adapter à un environnement complexe
et généralement non statique. Très schématiquement, la connaissance acquise par chaque
espèce est codée dans les chromosomes de ses membres. Lors des reproductions sexuelles, les
contenus des chromosomes sont mélangés, modifiés et transmis aux descendants par un
45
Chapitre 4 : Classification des données de biopuces.
certain nombre d’opérateurs génétiques : la mutation, qui se traduit par l’inversion d’une
faible partie du matériel génétique, et le croisement qui échange certaines parties des
chromosomes des parents. Cette particularité de l’évolution naturelle : la capacité d’une
population à explorer son environnement en parallèle et à recombiner les meilleurs individus
entre eux, est empruntée par les algorithmes génétiques.
Pour un problème d’optimisation donné, un individu représente un point de l’espace de
recherche, une solution potentielle. On lui associe la valeur du critère à optimiser, son
adaptation. On génère ensuite de façon itérative des populations d’individus sur lesquelles on
applique des processus de sélection, de croisement et de mutation. La sélection a pour but de
favoriser les meilleurs éléments de la population pour le critère considéré (les mieux adaptés),
le croisement et la mutation assurent l’exploration et exploitation de l’espace de recherche.
[1].
4.3.1 Représentation des solutions
Un aspect important des algorithmes génétiques est la façon dont sont codées toutes les
solutions. Les algorithmes génétiques établissent une analogie entre l’ensemble de solutions
d’un problème et l’ensemble d’individus d’une population naturelle, en codant l’information
sur chaque solution. Une solution s est fréquemment codée par une chaîne de bits de longueur
n i.e. s[i] ∈ {0, 1}, ∀ = 1, ..., n.
4.3.2 Fonction d’évaluation :
La fonction d’évaluation, aussi appelée fonction d’aptitude, est un facteur important
des algorithmes génétiques. Elle évalue chaque individu d’une population et donne la qualité
de chaque individu par rapport au problème posé. Celle-ci doit prendre en compte les bons
paramètres du problème, par exemple, il faut une fonction d’évaluation qui augmente ou
diminue progressivement à mesure qu’on s’approche de la bonne solution pour guider le
processus de recherche.
C’est au cours de la phase d’évaluation, où l’ensemble des individus d’une population sont
évalués (notamment ceux ayant subi une mutation ou un croisement), que l’on peut quantifier
leur degré d’aptitude.
46
Chapitre 4 : Classification des données de biopuces.
Figure 4.1 – Éléments d’un algorithme génétique
4.3.3 Opérateurs génétiques :
A chaque génération, les opérateurs génétiques travaillent sur les individus formant la
population. On différencie quatre opérateurs: opérateur d’initialisation, opérateur de sélection,
opérateur de croisement et opérateur de mutation. L’opérateur d’initialisation Habituellement,
génère un ensemble de plusieurs solutions. Cet ensemble constitue ce qui est appelé la
population initiale. Souvent, la population initiale est générée de manière aléatoire afin de
couvrir le mieux possible l’espace des solutions. [29].
4.3.3.1 L’opérateur de sélection :
La sélection joue un rôle très important dans les algorithmes génétiques: d’une part,
pour diriger les recherches vers les meilleurs individus et d’autre part, pour maintenir la
diversité des individus dans la population. Elle est liée au compromis entre la vitesse de
convergence élevée et une forte probabilité de trouver un optimum global dans le cas d’un
problème d’optimisation. Si la sélection choisit seulement le meilleur individu, la population
convergera rapidement vers cet individu. La sélection doit donc s’intéresser aux meilleurs
47
Chapitre 4 : Classification des données de biopuces.
individus tout en acceptant certains individus de moins bonne qualité. Plusieurs formes de
sélection sont possibles, les plus connues sont :
– sélection linéaire par rapport au rang
– sélection uniforme par rapport au rang
– sélection proportionnelle
– sélection proportionnelle à reste stochastique
– sélection stochastique universelle
– sélection par tournoi.
Dans la sélection linéaire par rapport au rang, le rang i de chaque individu Ii dans la
population est ∀i ∈ 1, ..., N : rang(Ii ) = i. Alors, un individu est choisi aléatoirement avec une
probabilité proportionnelle à son rang :
avec η− = 2 − η+ et 1 ≤ η+ ≤ 2. Cette sélection n’utilise pas directement la performance des
individus et donc un réajustement d’adaptation n’est pas nécessaire.
La sélection uniforme par rapport au rang consiste à choisir de façon équiprobable les
individus de rang inférieur ou égal à µ avec µ ≤ N . Les autres individus sont exclus de la
population et ne peuvent participer à la reproduction.
La probabilité de sélection s’exprime par:
La sélection proportionnelle, appelée aussi roulette (RWS) ou roue de la fortune
consiste à dupliquer chaque individu proportionnellement à sa valeur d’adaptation. On
effectue, en quelque sorte, autant de tirage avec remises qu’il y a d’éléments dans la
population. Ainsi, dans le cas d’un codage binaire, la qualité d’adaptation d’un individu
particulier étant f (Ii), la probabilité avec laquelle il sera réintroduit dans la nouvelle
population de taille N est :
48
Chapitre 4 : Classification des données de biopuces.
Les individus ayant une grande qualité ont donc plus de chance d’être sélectionnés.
On parle alors de sélection proportionnelle. L’inconvénient majeur de cette méthode repose
sur le fait qu’un individu n’étant pas le meilleur peut tout de même dominer la sélection. Elle
peut aussi engendrer une perte de diversité par la domination d’un super individu. Un autre
inconvénient est sa faible performance vers la fin de la recherche quand l’ensemble des
individus se ressemblent.
Dans la sélection proportionnelle à reste stochastique (SRS), le nombre de copies attendu pour
chaque individu Ii est directement fixé par le rapport de sa performance avec la performance
moyenne de la population :
Dans un premier temps, on n’obtient que
individus et il manque (N −α).
On complète la population en associant à chaque individu Ii une probabilité d’être sélectionné
égal à:
Le nombre de copies à compléter pour chaque individu est:
Comme pour la sélection précédente RWS, un réajustement préalable de la fonction
d’adaptation est également indispensable pour cette sélection. Contrairement à la sélection
proportionnelle RWS où il faut N tirages aléatoires pour sélectionner N individus, la sélection
stochastique universelle (SUS) ne nécessite qu’un seul tirage pour choisir tous les parents
d’une génération. à partir d’une variable aléatoire θ, prise uniformément dans l’intervalle .on
définit deux séries de pointeurs pu et pv de la manière suivante:
49
Chapitre 4 : Classification des données de biopuces.
le pseudo code de la sélection stochastique universelle est donné ci-après:
u=1 ;
v=1 ;
pour i=1..N faire
tant que pu < pv faire
Sélectionner Ii ;
Incrémenter u ;
Fin .
Fin.
Cette sélection est également précédée d’un réajustement de la fonction d’adaptation.
Lors de la sélection par tournoi, k individus de la population sont choisis aléatoirement et
celui ayant la performance la plus élevée sera retenu pour participer à la reproduction.
L’opération est répétée autant de fois qu’il y a d’individus à sélectionner.
La probabilité qu’un individu de rang i soit sélectionné après compétition est donnée Ci-après
Où Cpm désigne la combinaison de m individus p à p sans répétitions, soit le nombre de
groupes de p individus différents qu’on peut former avec m individus sans tenir compte de
l’ordre des individus.
Dans le cas particulier du tournoi de deux individus (k = 2), qualifié de tournoi binaire
probabiliste, la probabilité de sélection citée précédemment se réduit à :
La sélection par tournoi de deux individus est donc équivalente à la sélection linéaire par
rapport au rang avec η+ = 2.
50
Chapitre 4 : Classification des données de biopuces.
4.3.3.2 L’opérateur de croisement :
L’opérateur de croisement, appelé aussi recombinaison, est l’instrument majeur des
innovations dans l’algorithme génétique .Les individus potentiels existant au sein d’une
population génétique se croisent. Cette opération génère un (ou plusieurs) nouvel individu qui
peut se rapprocher de la solution optimum. Les opérateurs de croisement les plus connus sont:
– opérateur de croisement à un point. Dans cet opérateur deux individus se croisent et
s’échangent des portions de leur information en un seul point.
– opérateur de croisement à multiples points. Contrairement à l’opérateur précédent, il y a au
moins deux points de croisement (dans tous les deux opérateurs, un point de croisement est
aléatoirement choisi).
– opérateur de croisement uniforme. Cet opérateur décide pour chaque bit/gène avec
probabilité fixée, indépendamment, si on prendra celui de l’un ou l’autre parent.
4.3.3.3 L’opérateur de mutation :
L’opérateur de mutation sur un individu échange aléatoirement un bit pour son
complément. La mutation vise à modifier de façon aléatoire une partie de la population, elle
provoque l’auto-adaptation des individus. Le taux de mutation est généralement faible
Ce taux faible permet d’éviter une dispersion aléatoire de la population et n’entraîne que
quelques modifications sur un nombre limité d’individus. [30].
4.3.4 Phase de remplacement :
Une fois qu’on a généré des nouveaux individus par croisement et par mutation, il faut
décider de la constitution de la nouvelle population .Le remplacement décide quels individus
conserver. Il existe différents schémas de remplacement. Après avoir évalué les nouveaux
individus générés, on applique un de ces schémas. Nous allons présenter brièvement ces
schémas, les plus communs :
– remplacement élitiste
– remplacement du plus mauvais
– remplacement par descendance.
Le remplacement élitiste classique, couramment employé, garantie la survie du
meilleur parent à chaque génération.
Le remplacement du plus mauvais présente des variantes qui consiste à remplacer les
individus anciens les plus mauvais par des nouveaux individus. Dans le remplacement par
51
Chapitre 4 : Classification des données de biopuces.
descendance, appelé aussi générationnelle, il n’y a aucune compétition entre les parents et les
enfants. La population de la nouvelle génération est obtenue par descendance, c’est-à-dire, les
enfants remplacent automatiquement leurs parents, quel que soit leur adaptation. [31]
4.4
Algorithme génétique à double exploration
Les composants principaux qui jouent un rôle important dans l’algorithme génétique à
double explorations sont les suivants :
 Population de sélection : La population de sélection contient des vecteurs générés
aléatoirement, ces vecteurs contient que des ‘0’ et des ‘1’. ‘0’ indique que le gène
n’est pas sélectionné et ‘1’ indique que le gène est sélectionné.
 Population de classification : La population de sélection composée de plusieurs
vecteurs ,pour chaque vecteurs une population de classification est générée. Cette
dernière contient les valeurs de l’intensité des gènes sélectionnés par le vecteur.
 Classification : dans cette étape un algorithme génétique est appliqué à la population
de classification, les vecteurs sélectionnés par l’AG seront utilisés pour calculer le
taux de classification .donc chaque vecteur de sélection aura un taux de
classification. Si les taux obtenus sont satisfiable, le processus va s’arrêter sinon les
meilleurs vecteurs qui ont un bon taux de classification seront élus pour la deuxième
itération.
La deuxième itération commence par le croisement entre les vecteurs élus de la
première itération puis les deux étapes qui suivent reste invariable.
52
Chapitre 4 : Classification des données de biopuces.
4.5
Synthèse du chapitre
Nous avons donné dans ce chapitre quelques définitions sur la classification, les buts
et modalités de la classification et les différents types de classification .puis nous avons défini
deux algorithmes qui sont très utilisés dans le domaine de classification : l’algorithme KPPV
et l’algorithme génétique.
L’algorithme génétique à double explorations est une méthode que nous avons proposée pour
notre sujet de classification.
53
Chapitre 5
Résultats.
Sommaire
Chapitre 5 : Résultats.
5.1
Jeu de données utilisé dans ce mémoire ……………………………………....……...56
5.1.1
5.2
Cancer de la Prostate ………………………………………………………….…...56
Résultats ………………………………………………………………………….…..56
5.2.1
KPPV ……………………………………………………………………………..56
5.2.2
AG-AG …………………………………………………………………………....57
5.2.3
Comparaison de nos résultats avec d’autres travaux …………………..………....58
5.3
Synthèse du chapitre ………………………………………………………..………..61
Résultats
5.1
Jeu de données utilisé dans ce mémoire
Nous avons utilisé un jeu de donnée public, facilement accessible et qui est utilisé
dans de nombreux travaux concernant la classification des données de puces à ADN. Ce jeu
constitue en quelque sorte un jeu de test qui permet de comparer les méthodes proposées
depuis quelques années dans le domaine de la bioinformatique.
5.1.1 Cancer de la Prostate
Dans ce jeu de données, le niveau d’expression de 12600 gènes est mesuré sur 102
tissus. L’objectif initial est de distinguer les tissus normaux (52) des tissus cancéreux (50).
Pour une description complète de ce jeu de données consulter l’adresse :
http://www.broad.mit.edu/cgi-bin/cancer/datasets.cgi
Sous la rubrique “Gene Expression Correlates of Clinical Prostate Cancer Behavior”.
5.2
Résultats
Les données du cancer de la prostate contient presque 12600 gènes et pour mieux
analyser ce nombre de gènes important, nous utilisons deux méthodes de filtrage statistique
(chapitre 3) : le test de Fisher et le test BW.
Après la réduction du nombre des gènes à 75 gènes, nous appliquons la méthode KPPV et la
méthode AG-AG.
5.2.1 KPPV
Le tableau ci-dessous montre les résultats que nous avons trouvés :
Cancer de la prostate
KPPV
Taux de classification
Nombre de gènes
K
Test de Fisher
80
%
11
2;4
Test BW
97.14 %
06
2
Table 5.1- Résultats obtenus par la méthode KPPV.
56
Résultats
5.2.2 AG-AG
La deuxième méthode appliquée sur le jeu de données du cancer de la prostate est
l’algorithme génétique à double exploration (chapitre 4) .les conditions expérimentales pour
ce dernier est les suivantes :
Taille de la population de sélection =15.
Taille de la population de classification =30.
Nombre de génération=100.
Nombre d’exécution =10.
Le tableau ci-dessous montre les résultats que nous avons trouvés :
AG-AG
Test de Fisher
Test BW
Cancer de la prostate
Taux de classification
Nombre de gènes
91.42 %
23
97.14 %
19
Table 5.2- Résultats obtenus par la méthode AG-AG.
Figure 5.1 Taux de classification des données de biopuces.
57
Résultats
Données de puces à ADN
Prétraitement
Données prétraitées
Filtrer (test de
Fisher et BW)
Gènes sélectionnés
Classifieur (KPPV
,AG-AG)
Classification
Figure 5.2 Schéma général d’analyse des données de biopuces .
5.2.3 Comparaison de nos résultats avec d’autres travaux
Nous proposons de faire une comparaison avec les travaux les plus importants dans
Le domaine de la sélection et de la classification des données de puces à ADN. Le tableau
Suivant montre cette comparaison :
58
Résultats
Cancer de la prostate
Références
Taux d’apprentissage
Nombre de gènes sélectionnés
KPPV
97.14 %
06
AG-AG
97.14 %
19
[47]
97.0%
30
[48]
86.88%
-
[49]
73.5 %
-
[50]
92.5 %
-
Table 5.3 comparaison des résultats.
Nous constatons d’après la lecture du tableau de comparaison que nous avons obtenu une
bonne performance de classification pour nos deux méthodes proposées à ce sujet :
classification des donnés de biopuces.
Les auteurs dans [50] utilisent deux méthodes : la méthode SVM avec un taux de 92.5 % et
la méthode ULDA avec un taux 92 %.
Les auteurs dans [47 ] utilisent les réseaux de neurones avec un taux de 97% et un nombre de
gène égal à 30.
Le résultat affiché dans [49] utilise la méthode bagging and bootstrap avec un taux égal à
73.5 % et le résultat affiché dans [48] utilise la méthode PCA et LDA avec au taux de
86.88%.
Nous notons que la méthode Kppv a un bon taux de classification avec un nombre de gènes
très petits par rapport à toutes les méthodes qui traitent ce sujet de classification.
La deuxième bonne performance obtenu par l’algorithme génétique à double explorations
montre que l’algorithme génétique reste une méthode très intéressante dans le domaine de
classification.
Nous terminons notre comparaison par deux points:
1- Les gènes sélectionnés dans toutes les méthodes notamment les méthodes qui donnent
un bon taux de classification ne sont pas les mêmes , exception d’un seul gène ou
deux.
59
Résultats
2- Les travaux les plus importants dans le domaine de classification des données de
biopuce n’ont pas encore aboutissent à 100% en ce qui concerne les données du
cancer de la prostate. Ce dernier point ouvre des perspectives sur plusieurs autres
propositions.
60
Résultats
5.3
Synthèse du chapitre
Nous avons présenté dans ce chapitre le jeu de données utilisé dans ce mémoire
ainsi que les résultats obtenus par l’algorithme KPPV et l’algorithme génétique à double
explorations.
Puis nous avons comparé nos résultats avec quelques résultats de références.
61
Conclusion
Conclusion et Perspectives
Conclusion
Les différents travaux réalisés dans ce mémoire s’inscrivent dans le cadre de
classification des données issues des biopuces.
Nous avons présenté tout d’abord la méthode PCR qui a permis de développer la
recherche en plusieurs domaines notamment la biologie. La méthode PCR permet d’amplifier
une seule copie de gène à un million d’exemplaires en quelques heures.
Ensuite nous avons présenté les différentes étapes d’une analyse par puce à ADN,
telles que la préparation des cibles et l’hybridation, acquisition et analyse des images et
transformation des données. Nous avons utilisé des méthodes de sélection statistique qui sont
très utilisées, pour réduire Le nombre de gènes important et ne laisser que les gènes qui ont
une valeur d’expression significative.
Nous avons proposé deux algorithmes pour notre sujet de classification : l’algorithme
Kppv et l’algorithme génétique à double exploration .l’algorithme génétique à double
explorations est un algorithme qui utilise un algorithme génétique pour la sélection et un
algorithme génétique pour la classification.
Finalement, nous avons comparé les deux résultats de nos deux méthodes avec des
modèles de référence. Les résultats comparatifs montrent que nos deux méthodes proposées
sont compétitifs, en terme de taux de classification et du nombre de gènes sélectionnés.
Perspectives de recherche
Nous avons proposé différents algorithmes pour la classification des données de
biopuces, bien qu’ils nous aient permis d’obtenir des résultats compétitifs ,nos approches
pourraient être encore améliorées.
63
Conclusion et Perspectives
D’après les méthodes que nous avons utilisées, les méthodes de sélection telles que BW
et test de Fisher ne donnent pas les mêmes gènes pour l’ensemble initial à classifier. Cette
remarque nous permet de penser à d’autres idées pour la sélection de la population initiale.
Nous pouvons utiliser d’autres méthodes de sélection existent dans la littérature, les
comparer et de ne garder que les mêmes gènes pour toutes les méthodes choisies.
Nous pouvons encore envisager d’autres idées, puisque le sujet à traiter rentre dans le
cadre de la bioinformatique, nous pensons donc à la validation biologique des résultats, c’està-dire étudier les gènes choisis par la méthode de sélection au niveau du laboratoire.
Les résultats du laboratoire va nous guider à construire notre système de diagnostic par des
méthodes simples et rapides.
64
Références
Références
Références
[1]
Peyre J., Analyse statistique des données issues de biopuces à ADN, thèse de doctorat
Université de Grenoble I, Septembre 2005.
[2]
Saiki et
al. (1985). Enzymatic amplification of ß-globin genomic sequences and
restriction site analysis for diagnosis of sickle cell anemia. Science 230, 1350.
[3]
Alberts et al. (1983). Molecular biology of the cell. Garland Publishing, Inc., New York.
[4]
S. P. Fodor, J et al Light-directed, spatially addressable parallel chemical analysis,‖
Science 251, pp. 767–773, 1991.
[5]
P. Fortina, D. Graves, et al Technology Options and Applications of DNA
Microarrays, pp. 185–216, Harwood Academic Publishers, Philadelphia, 2001.
[6]
K. L. Gunderson, et al Decoding randomly ordered DNA arrays,‖ Genome Research
14(5), pp. 870– 877, 2004.
[7]
Herold, KE; Rasooly, A (editor) (2009). Lab-on-a-Chip Technology: Fabrication
and Microfluidics. Caister Academic Press.
[8 ]
Hardin,J,et al robust measureof Correlation between two gens on a microarray .BMC
Bioinformatics 2007.
[9]
E. M. Southern. DNA Arrays methods and protocols, chapter DNA Microarrays, pages
1–15. Humana Press, 2001.
[10] Golub et al.,. Molecular classification of cancer: Class discovery and class prediction
by gene expression monitoring. Science, 286:531–537, 1999.
[11]
Y.H. Yang, et al Speed.Normalization for cdna microarray data: a robust composite
method addressing single and multiple slide systematic variation. Nucleic Acids Res,
30:1–12, 2002.
66
Références
[12] Genome Resource Facility GRF, Microarray section, London School Of Hygiene and
Tropical, Article technique, Medecine. 2006
[13]
Brazma A., et all Minimum information about a microarray experiment (MIAME) –
toward standards for microarray data. Nature Genetics 29(4) : 365 –371 2001.
[14] Rayner, T. F., P. Rocca-Serra, P. T. Spellman, H. C. Causton, A. Farne, E. Holloway A
simple spread sheet-based,MIAME-supportive format for microarray data : MAGETAB. BMC Bioinformatics 2006.
[15] Parkinson H., et al, ArrayExpress—a public database of microarray experiments and
gene expression Profiles 2007.
[16] WebCampus, Analyse des puces à ADN, Plateforme d’enseignement,Université de
Namur, Février 2014.
[17] Barrett T., et all NCBI GEO :mining millions of expression profiles—database and
tools 2005.
[18] Statistical Algorithms Description Document, Affymetrix, Document technique,Inc.,
Santa Clara, CA, 2002.
[19] Clevert D-A., Using FARMS form summarization Using I/NI-calls for gene filtering,
Article technique, Kepler University, Octobre 2013.
[20] Tusher, V., R. Tibshirani and G. Chu, Significance analysis of microarrays applied to
transcriptional responses to ionizing radiation. Proceedings of the National Academy of
Science USA, 2001.
[21]
David M. Rocke et Blythe Durbin. A Model for Measurement Error for Gene
Expression Arrays. Journal of Computational Biology, 8, 559–567, 2001. (55, 56)
[22]. Yosef Hochberg et Ajit C. Tamhane. Multiple Comparison Procedures. Wiley, 1987.
(82) 26. Iain M. Johnstone et Bernard W. Silverman. Needles and straw in haystacks :
Empirical Bayes estimates of possibly sparse sequences. The Annals of Statistics, 32(4),
1594–1649, 2004. (128, 129)
67
Références
[23]. Charles Kooperberg, et al Improved Background Correction for Spotted DNA
Microarrays. Journal of Computational Biology, 9(1), 55–66, 2002. (22)
[24] Bernard R., Puces à ADN, Cours de biologie, Université d’Aix enProvence, 2010.
[25]
Genome Resource Facility GRF, Microarray section, London School of Hygiene and
Tropical, Article technique, Medecine. 2006.
[26] Le Meur N., Acquisition des puces à AND et leur interprétation, thèse de doctorat,
Université de Nantes, Juin 2005
[27] Moussa A. Vannier B. , Workflow d’analyse de données des puces à ADN, Spectra
Analyse n291 p 48, revue scientifique, Mai 2013
[28] Yee H. Yang, Sandrine Dudoit, Percy Luu et Terence P. Speed. Normalization for
cDNA Microarray Data. Dans SPIE BiOS. San Jose, California, Janvier 2001.
[29] Holland, Adaptation in Natural and Artificial Systems. University of Michigan Press :
Ann Arbor, 1975.
[30] Goldberg, D.E., Genetic Algorithms in Search, Optimization and Machine Learning.
Addison-Wesley : Reading, MA, 1989.
[31] Z. Michalewicz, Genetic Algorithms. Springer-Verlag : New York, 1992.
[32] A. Alizadeh, Distinct types of diffuse large (b)–cell lymphoma identified by gene
expression profiling. Nature,403:503–511, February 2000.
[33] E. Alba, J. Garcia-Nieto, L. Jourdan, and E.G. Talbi. Gene selection in cancer
classification using pso/svm and ga/svm hybrid algorithms. In IEEE, editor, CEC-2007,
pages 284–290, 2007.
[34] Z. Zhu, Y.S. Ong, and M. Dash. Markov blanket-embedded genetic algorithm for
selection. Pattern Recognition, 40:3236–3248, 2007.
[35] Mari, J., & Napoli, A. (1996). Aspects de la classification. Rapport technique 2909,
INRIA.
[36] Henriet, L. (2000). Système d'évaluation et de classification multicritères pour
l'aide à la décision, construction de modles et procédures d'affectation. Thèse de
doctorat en science. Université Paris Dauphine.
68
Références
[37] Michie, D., Spiegelhalter, D., & C.C. (1994). Machine learning, neural and statistical
classification.New York: Ellis Horwood.
[38] Bognar, K. (2003). Aspects théoriques de la classification à base de treillis. Université
Debrecen: Institut de mathématiques et informatique.
[39] Duda, O. R., Hart, E. P., & Stork, D. G., (2001). Patern classification. John Wiley &
Sons.
[40] Weiss, S., & Kulikowski, C. (1991). Computer systems that learn, classification ans
prediction methods from statistics, neural nets, machine learning and experts
systems. San Mateo: California Morgan Kaufman Publishers.
[41] Hansen,
P.,
&
Jaumard,
B.
(1997).
Cluster
analysis
and
mathematical
programming. Mathematic Programming, 79, pp. 191-215.
[42] Vincent, P. (2003). Modèles à noyaux à structure locale. Thèse de Doctorat.
Université de Montréal.
[43] Vapnik, V. (1998). Statistical learning theory. New York: Wiley.
[44]
Belacel, N.
(1999). Méthodes de classification multicritère, méthodologie et
applications à l'aide au diagnostic médicale. Thèse de doctorat en science. Université
Libre de Bruxelles.
[45] Roy, B., & Bouyssou, D. (1993). Aide multicritère à la décision. Economica.
[46] Wu, X., Kumar, V. Q., & McLachlan HMG, N. A. (2008). Top 10 algorithms in
data mining, knowledge and information systems. International Journal of Knowledge
and Information Systems (KAIS), 14(1), pp. 1-37.
[47] B. Liu, Q. Cui, T. Jiang, and S. Ma. A combinational feature selection and ensemble
neural network method for classification of gene expression data. BMC Bioinformatics,
5(138):1–12,2004.
[48]
W-H. Yang, D-Q. Dai, and H. Yan. Generalized discriminant analysis for tumor
classification with gene expression data. Machine Learning and Cybernetics., 1:4322–
4327, 2006.
[49] A. C. Tan and D. Gilbert. Ensemble machine learning on gene expression data for
cancer classification. Applied Bioinformatics, 2(2):75–83, 2003.
[50] J. Ye, T. Li, T. Xiong, and R. Janardan. Using uncorrelated discriminant analysis for
tissue classification with gene expression data. IEEE/ACM Trans. Comput. Biology
Bioinform., 1(4):181–190, 2004.
69
Téléchargement