
Quand on dispose, d’une très quantité de données, le problème se pose moins. Il suffira
d’utiliser une partie pour l’apprentissage, et une partie pour l’évaluation. Chacune des deux
parties serait donc, suffisante pour assurer un bon apprentissage, et une bonne évaluation.
Sachant que tout bon apprentissage exige un maximum de données et toute bonne
évaluation exigera un maximum de données.
Dans la réalité, il s’agira de gérer INTELLIGEMMENT une quantité limité de données et
pour l’apprentissage et pour l’évaluation. Car les données de qualité sont rares.
Nous allons présenter quelques techniques sur comment répartir les données entre base
d’apprentissage et base de test (évaluation).
Le dilemme à résoudre est qu’avec une quantité de données limitées, il s’agira de donner le
maximum à l’apprentissage et au test ????
Chaque technique aura ses avantages et inconvénients.
Au cas où vous ne l’avez pas compris, l’évaluation dans l’exemple de la classification,
consistera à présenter au modèle un certain nombre d’instances de la base de donnée
classée, mais sans leurs classes pour qu’il les classe. On comptabilisera le nombre de succès
(la classe fourni par le modèle et la classe de l’instance sont identiques), et le nombre
d’échecs (la classe fourni par le modèle et la classe réelle de l’instance sont différentes).
Revenons aux méthodes d’évaluation ;
La première, et on a déjà vu, c’est de calculer le taux d’erreur sur la base d’apprentissage. On
parle de « resubstitution error », parce que calculée à partir d’un ensemble test qui a servi
aussi comme ensemble d’apprentissage. Bien que non fiable, elle peut apporter des
informations intéressantes.
La deuxième technique est appelée le « Hold Out », laisser à part, réserver une partie des
données pour l’étape d’évaluation, ne pas les utiliser pour l’apprentissage.
Vous disposez de N instances dans votre base de données, mettre M instances dans la
base d’apprentissage et (N-M) instances dans la base test.
Comme je l’ai déjà dit, chaque étape (apprentissage, évaluation) sera meilleure si elle
dispose d’un maximum de donnée.
Pour l’apprentissage, vous l’avez, je suppose déjà compris, plus de données on a, plus notre
modèle sera plus complet, plus généralisable.
Pour l’évaluation aussi, plus vous avez testé sur plus grande quantité de données, plus votre
évaluation est significative, fiable.
Quelqu’un qui dit, j’ai testé sur 10000, a plus de crédibilité que quelqu’un qui dit j’ai testé
sur 10 ou 100. Non ?
Mais, on est obligé de décider sur partage ; généralement on prendra 2/3 base
d’Apprentissage, 1/3 base de Test. Mais, vous libre de fixer les pourcentages.