4
Avant-propos et présentation générale du manuscrit
J’ai travaillé durant 10 ans en Apprentissage Automatique (de 1989, année où j’ai débuté ma thèse,
à 1999) et 10 ans en Bioinformatique (de 1999, date de mon recrutement sur un poste de Maître de
Conférences en Bioinformatique à l’Université de Versailles, à ce jour).
Durant mes «années Apprentissage», j’ai eu l’occasion de m’intéresser à de nombreux problèmes,
essentiellement dans le domaine de l’Apprentissage Automatique Supervisé. J’ai, dès le départ,
inscrit mes réflexions dans un cadre qui assimile (réduit) l’Apprentissage à un problème
d’optimisation combinatoire, i.e., à la recherche d’un optimum dans un espace dit «de recherche».
Dans ce contexte, j’ai développé avec Henry Soldano (mon directeur de thèse)
1
des algorithmes
permettant de réduire l’espace de recherche (sans perte d’information) et utilisé des
métaheuristiques, telles le «recuit simulé» ou la «recherche tabou», pour conduire l’exploration
(Brézellec & Soldano, 1994, 1998). Comme de nombreux chercheurs, j’ai vivement été intéressé
par un résultat dû à David Wolpert
2
(1992, 1993, 1994), le «No Free Lunch Theorem» ou «NFL»,
définissant les conditions sous lesquelles aucun algorithme d’optimisation ne peut prétendre donner
(en moyenne sur tous les problèmes possibles) de meilleurs résultats qu’un autre. Dans la mesure
où, à l’époque, nous cherchions «presque tous» à développer des algorithmes meilleurs que celui
des collègues, il y avait là de quoi être intrigué voire déstabilisé par ce résultat. Ceci m’a conduit à
creuser plus avant cette thématique et j’ai montré (Brézellec, 1996) que le NFL avait un lien étroit
avec le théorème dit du «vilain petit canard» établi par Satoshi Watanabé
3
(1985). Ce travail m’a
convaincu que, d’un point de vue théorique, une des voies les plus pertinentes qu’on pouvait
désormais explorer en Apprentissage était la conception d’algorithmes qui, étant donné une
distribution de problèmes, donnent en moyenne les meilleurs résultats sur cette distribution. Je n’ai
pas eu le temps d’approfondir cette excitante thématique et j’ai fini «ma carrière» dans le domaine
(je ne le savais pas à l’époque) en encadrant la thèse de Véronique Ventos. Elle travaillait sur une
Logique de Descriptions et souhaitait déterminer les conditions sous lesquelles elle était apprenable
(«PAC-Apprenable» (Valiant, 1984) pour être précis, cf. (Ventos & Brézellec, 1997), (Ventos et.
al., 1998)).
J’ai commencé mes «années Bioinformatique» en faisant de l’Apprentissage Automatique Non
Supervisé sur des transcriptomes (Didier et. al., 2002) puis sur des protéomes (Mohseni-Zadeh et.
al., 2004ab). Dans le cadre d’un module de biologie dans lequel j’intervenais (j’y montrais que les
techniques d’Intelligence Artificielle et de Data Mining pouvaient aider à adresser pertinemment
certains problèmes de bio), j’ai fait la connaissance d’un biologiste, Jean-Luc Férat. Nous avons
dès lors mené un travail sur le gène dam qui est toujours en cours (cf. (Brézellec & al., 2006)). Très
peu de temps après, j’ai eu la chance de rencontrer une bioinformaticienne, Sophie Pasek, qui
venait de débuter sa thèse. Comme nous partagions le même bureau, je me suis intéressé – un peu
par la force des choses au début, puis rapidement par goût – à ce qu’elle faisait. Rapidement nous
avons obtenu des résultats sur l’évolution modulaire des protéines (cf. (Pasek et. al., 2006ab)).
Ces deux collaborations m’ont énormément apporté et continuent aujourd’hui encore à m’apporter
beaucoup. Cela étant, j’ai toujours nourri de vifs regrets sur le contenu des différents articles que
nous avons publié : je me suis en effet rendu compte que lorsque nous abordions frontalement
«l’évolution», les referees avaient tendance à «s’agacer» (c’est surtout vrai avec Sophie, car Jean-
Luc a toujours prôné, en connaissance de cause, une certaine retenue voire carrément une auto-
1
Mon directeur de thèse officiel était Daniel Kayser, mais c’est Henry Soldano qui m’a encadré.
2
Dans un premier temps, j’ai attribué ce résultat à Cullen Schaffer (1994) qui lui avait donné pour nom
«Conservation Law for Generalization Performance» (CLGP). Il s’est avéré par la suite que la CLGP de
Schaffer était une élégante formulation de résultats antérieurement établis par Wolpert.
3
La même année Wolpert (1996a) mentionnait également ce lien.