●soit des modèles statistiques qui consistent à utiliser des mesures statistiques pour modéliser un
profil de comportement et détecter ensuite des comportements intrusifs. Chacune des ces mesures
est associée à un seuil ou à un intervalle de valeurs, dans lequel une activité est considérée
comme normale. Tout dépassement de seuil ou situation de valeurs à l'extérieur des bornes de
l'intervalle indique une activité anormale,
●soit des systèmes experts. La différence majeure entre un système expert et un modèle
statistique est que ce dernier utilise des formules statistiques pour identifier des comportements
dans les données d'audit alors que le système expert utilise un ensemble de règles pour
représenter ces comportements.
Les approches comportementale prédisant le profil normal peuvent, quant à elles, reposer sur :
●des générateurs de forme prédictive. Cette approche prédit les formes les plus probables en se
basant sur les formes observées. Durant la phase d'apprentissage, cette approche détermine des
règles temporelles qui caractérisent le comportement normal des utilisateurs.
●ou des réseaux de neurones. Un réseau de neurones est constitué de plusieurs éléments de
traitement simples appelés unités et qui interagissent en utilisant des connections pondérées. Le
réseau constitue le profil normal d'un utilisateur. Ainsi, après chaque commande utilisée par cet
utilisateur, le réseau essaye de prédire la commande suivante, en tenant compte des n commandes
antérieures. Si la commande réelle dévie de celle prédite, alors une alarme est envoyée.
Quelle que soit l'approche choisie (comportementale, par scénarios ou hybride), tous les IDS se trouvent
confrontés au problème de la détection de nouvelles attaques, plus précisément à la détection d'attaques
inconnues. Les systèmes fondés sur une approche par scénarios, ne peuvent, a priori, détecter que des
attaques connues : la détection de nouvelles attaques pour eux consiste en la mise à jour de leur base de
connaissance (à la manière des logiciels antivirus). L'approche comportementale, quant à elle, permet
effectivement de détecter des attaques inconnues, puisque toutes les attaques constituent une déviation vis à
vis de leur comportement normale de référence.
Au delà du problème de la détection de nouvelles attaques, tous les IDS existants (encore une fois, quelle
que soit l'approche sur laquelle ils reposent) sont soumis aux problèmes de l'extraction et surtout de la
classification de données pertinentes d'un large volume de donnée diverses ([13]). Ce volume et cette variété
peuvent se justifier par ([9]) :
●l'augmentation du nombre d'attaques ainsi que la taille des journaux d'audits manipulés (qui
contiennent de plus en plus d'événements), augmentations liées à celle des débits des réseaux,
●l'éventail d'IDS (propriétaires ou non) utilisant chacun leurs techniques et données propres par
manque de standard reconnu.
Une des techniques les plus populaires à l'heure actuelle est celle du Data Mining, que nous allons
expliciter dans la partie suivante.
2.2 Le Data Mining et la classification de données d'audit
D'après Dary Alexandra Pena Maldonado ([9]), le Data Mining (DM) est une technique permettant de
retrouver des corrélations d'attributs entre éléments d'un même jeu de données, pour caractériser un
comportement spécifique, mais autorisant également la construction de règles à des fins de classification.
Pour Wenke Lee & Al. ([18]), le DM est un processus chargé d'extraire automatiquement un modèle d'un
large ensemble de données. Les auteurs distinguent différent types d'algorithmes de DM :
●Classification : permet de déterminer l'appartenance d'un élément à une catégorie prédéfinie.
●Analyse de lien : permet de déterminer les relations entres différentes caractéristiques d'une base
de données, afin de conseiller le meilleur jeu de caractéristiques pour la détection d'intrusions.
4/28