
BADJI MOKHTAR-ANNABA UNIVERSITY
UNIVERSITE BADJI MOKHTAR-ANNABA

Faculté des sciences de l’ingénieur
Année 2009/2010
Département d’informatique
Présenté en vue de l’obtention du diplôme de MAGISTER
U
Un
n
m
mo
od
dè
èl
le
e
c
ch
hi
im
mi
io
o-
-i
in
nf
fo
or
rm
ma
at
ti
iq
qu
ue
e
p
po
ou
ur
r
u
un
ne
e
s
sy
yn
nt
th
hè
ès
se
e
v
vi
ir
rt
tu
ue
el
ll
le
e
Option
Génie logiciel
Par
DIRECTEUR DE MEMOIRE : Dr Mohamed Tahar Kimour, MC en informatique, Univ. Annaba
DEVANT LE JURY
PRESIDENT : Dr Rachid Boudour, MC en informatique, Univ. Annaba
EXAMINATEURS : Dr Tahar Bensebaa MC en informatique, Univ. Annaba
Dr Yamina Tlili, MC en informatique, Univ. Annaba
i
صخلم


.



















ii
Abstract
The information technology applied to chemistry and to biology requires enormous
capacities of calculation, means of treatment, of storage and software. The field of
chemoinformatics is an interdisciplinary field in booming. It aims at bringing the information
technology solutions to problems linked to the chemical information processing (storage,
research, acquisition and exploitation of knowledge).
When the inputs of system can be described as structured data (e.g. certain applications
in the field of chemistry where inputs are molecules) it is more efficient to use directly this
structure to model the output(s) of the system, which can be the physicochemical properties
related to these molecules or their activity. We present, for this purpose, a statistical learning
modeling method called graph machines where molecules, considered as structured data,
are represented by graphs. For each individual of the data set, a mathematical function (graph
machine) is built, whose structure reflects the structure of the molecule under consideration. It
is the combination of identical parameterized functions (e.g. neural networks). Functions
associated with the various observations to each other are different because they reflect the
structure inherent in each observation, i.e. with distinct observations is associated distinct
models.
We showed that the traditional techniques of model selection can be used within the
framework of graph machines; they make it possible to evaluate the capacities in
generalization of the models suggested, but also to detect the categories of molecules under-
represented in the base of training, and to estimate the confidence intervals of the predictions.
This approach positions, so in rupture with the traditional methods of modeling where
the variables in entry are represented by vectors and the built model is the same one for all
the observations.
iii
Résumé
L’informatique appliquée à la chimie et à la biologie requiert d’énormes capacités de
calcul, de moyens de traitement, de stockage et de logiciels. Le domaine de la chimio-
informatique est un domaine interdisciplinaire en plein essor. Il vise à apporter des solutions
informatiques à des problèmes liés au traitement de l'information chimique (stockage,
recherche, acquisition et exploitation de connaissances).
Dans le cas les entrées d’un système se présentent sous la forme d’une structure,
comme pour certaines applications dans le domaine de la chimie les entrées sont des
molécules, il est plus avantageux d’utiliser directement cette structure pour modéliser les
réponses du système, qui peuvent être les propriétés physico-chimiques de ces molécules ou
leur activité. Ce travail présente à cette fin, une méthodologie à base de la modélisation par
apprentissage statistique appelé graph machines, et basée sur le codage des entrées en graphes
acycliques orientés. Le modèle construit par la thode des graph machines se présente sous
forme d’une composition de fonctions paramétrées élémentaires (de type seaux de
neurones) qui partagent les mêmes paramètres. Les fonctions associées aux différentes
observations sont différentes les unes des autres parce qu’elles reflètent la structure inhérente
à chaque observation, i.e. à des observations distinctes sont associés des modelés distincts.
Nous avons montré que les techniques traditionnelles de sélection de modèle peuvent être
utilisées dans le cadre des graph machines ; elles permettent d’évaluer les capacités en
généralisation des modèles proposés, mais aussi de détecter les catégories de molécules sous-
représentées dans la base d’apprentissage, et d’estimer les intervalles de confiance des
prédictions.
Cette approche se positionne, de ce fait, en rupture avec les méthodes classiques de
modélisation où les variables en entrée sont représentées par des vecteurs et le modèle
construit est le même pour toutes les observations.
iv
DEDICACE
A mes très chers parents qui ont été toujours pour moi, et qui m’ont donné un
magnifique modèle de labeur et de persévérance. J’espère qu’ils trouveront dans ce
travail toute ma connaissance et tout mon amour.
A mes chers frères et sœurs Samia, Rabah, Sara et le petit Cheroufa.
A mon marie khaled et sa famille.
A mes tantes et mes oncles.
A chaque cousin et cousine.
A tous mes meilleurs amis Abir, Souheila, Houda, Wafa, Jouda,
A tous mes collègues du département d'informatique.
A tous les gens qui m’ont aidé et soutenue.
Je dédie ce travail.
Debba Fatima Zohra
1 / 98 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !