Algorithmes d`extraction et d`interrogation d`une représentation

Algorithmes d’extraction et d’interrogation d’une
représentation concise exacte des motifs corrélés rares :
Application à la détection d’intrusions
Souad Bouasker, Tarek Hamrouni, Sadok Ben Yahia
Département des Sciences de l’Informatique, Faculté des Sciences de Tunis, Tunisie
{tarek.hamrouni, sadok.benyahia}@fst.rnu.tn
Résumé. Nous proposons, dans ce papier (1), l’algorithme RCPRMINER d’ex-
traction de la représentation RMCR de l’ensemble MCR des motifs corrélés
rares. Les algorithmes d’interrogation de cette représentation et de régénération
de l’ensemble MCR à partir de RMCR sont aussi introduits. En outre, nous
décrivons le processus de classification basée sur les règles génériques corrélées
rares et son application dans la détection d’intrusions.
1 Introduction et motivations
Nous avons récemment étudié, dans (Bouasker et al., 2012), l’ensemble MCR des motifs
rares corrélés associés à la mesure bond et nous avons définit, grâce à l’opérateur de fermeture
fbond (Ben Younes et al., 2012) associé à cette mesure et grâce à la notion de “classes d’équi-
valence”, la représentation concise RMCR de l’ensemble MCR. Dans ce travail, nous pro-
posons un nouvel algorithme RCPRMINER d’extraction de la représentation RMCR. Nous
décrivons également les algorithmes d’interrogation de RMCR et de régénération de l’en-
semble total MCR à partir de RMCR. Nous illustrons, aussi, l’apport bénéfique offert par
RMCR dans le cadre de la détection d’intrusions.
Dans ce qui suit, nous rappelons brièvement la définition de la représentation RMCR.
2 Aperçu de la représentation RMCR
Nous commençons par présenter l’expression de la mesure de corrélation bond, telle que
redéfinie dans (Ben Younes et al., 2012).
Définition 1 Étant donnée une base de transactions D=(T,I,R)Test un ensemble de
transactions, Iest un ensemble d’items, et Rest une relation binaire liant TàI, la mesure
bond d’un motif X⊆Iest définie comme suit :
bond(X)=Supp(X)
Supp(X),
1Une version étendue de ce travail se trouve à l’adresse suivante : http://arxiv.org/abs/1111.6552. Ce travail est
partiellement financé par le projet Utique 11G1417.
Fouille d’une représentation concise des motifs corrélés rares
avec Supp(X)(resp. Supp(X)) le support conjonctif (resp. disjonctif)de X.
Toutefois, l’ensemble MCR(2) des motifs corrélés rares associés à la mesure bond a été étu-
dié dans (Bouasker et al., 2012) et la représentation concise exacte RMCR a été également
introduite en se basant sur les “classes d’équivalences corrélées rares” induites par l’opérateur
de fermeture fbond (Ben Younes et al., 2012) associé à la mesure bond. En effet, la repré-
sentation RMCR est composée de l’ensemble MFCR(3) des motifs fermés corrélés rares,
formant les éléments maximaux des classes d’équivalence corrélées rares, et de l’ensemble
MMCR(4) des motifs minimauxcorrélés rares formant les éléments minimaux de ces classes
d’équivalence. En se basant sur ces deux ensembles, la représentationRMCR a été proposée.
Définition 2 (Représentation RMCR)La représentation RMCR est définie comme suit :
RMCR =MFCR ∪ MMCR.
Nous enchaînons, dans la suite, avec l’algorithme RCPRMINER d’extraction de RMCR.
3 Algorithme d’extraction de RMCR
L’algorithme RCPRMINER(5), dont le pseudo-code est donné par l’algorithme 1 permet de
déterminer, à partir d’un contexte d’extraction D, les éléments de la représentation RMCR
munis de leurs supports conjonctifs et de leurs valeurs de la mesure bond.
L’algorithme RCPRMINER se réalise en deux principales étapes. La première étape est
dédiée à l’extraction de l’ensemble MCMax des motifs corrélés maximaux grâce à la pro-
cédure EXTRACTION_MCMAX. La deuxième étape consiste à intégrer la contrainte de ra-
reté ainsi que l’ensemble MCMax dans la fouille de la représentation RMCR. À chaque
itération de cette deuxième étape, un ensemble de candidats est généré moyennant la procé-
dure APRIORI_GEN. Les stratégies d’élagage de ces candidats correspondent à : (i)L’élagage
de tout candidat inclus dans un motif corrélé maximal fréquent,(ii)L’élagage de tout
candidat non inclus dans un motif corrélé maximal rare,(iii)L’élagage par rapport à
la propriété d’idéal d’ordre des motifs minimaux corrélés. Les candidats retenus seront
ensuite traités par la procédure EXTRACTION_MMCR_MFCR. Cette dernière permet de dé-
terminer les motifs minimaux corrélés rares, de calculer leurs fermetures et de les insérer dans
l’ensemble MFCR.
4 Algorithme d’interrogation de RMCR
L’interrogation de la représentation permet de déterminer pour un motif donné s’il est cor-
rélé rare. Si c’est le cas, alors les valeurs de son support conjonctif, disjonctif, négatif, ainsi
que la valeur de sa mesure bond, seront régénérées grâce à la représentation RMCR. Ceci
est réalisé moyennant l’algorithme ESTMCR dont le pseudo-code est donné par l’algorithme
2. L’algorithme ESTMCR distingue trois différents cas. Le premier se réalise lorsque le motif
2MCR ={X⊆I|Supp(X)<minsupp et bond(X)minbond}.
3MFCR ={X∈MCR|X1X:bond(X)>bond(X1)}.
4MMCR ={X∈MCR|∀X1X:bond(X)<bond(X1)}.
5Acronyme de Rare Correlated Patterns Representation Miner.
S. Bouasker, T. Hamrouni et S. Ben Yahia
Algorithme 1 :RCPRMINER
Données : Une base de transactions D=(T,I,R), minbond,etminsupp.
Résultats : La représentation concise exacte RMCR =MMCR ∪ MFCR.
Début
RMCR := ;Cand0:= {};
/* La première étape */
MCMax := EXTRACTION_MCMAX(D,minbond);
/* La deuxième étape */
MCMaxF:= {X∈MCMax |X.SConj minsupp}/* X.SConj correspond au
support conjonctif de X*/;
MCMaxR:= {X∈MCMax |X.SConj <minsupp};
CandP1:= {i|i∈I}/* CandPncorrespond aux candidats potentiels de taille n*/;
tant que (CandPn=)faire
/* Élagage des candidats potentiels */
Candn:= CandPn\{Xn∈CandPn|(Z∈MCMaxF:XnZ)ou(Z
MCMaxR:XnZ)ou(Yn1Xn:Yn1/∈Candn1)};
/* Détermination des motifs minimaux corrélés rares de taille net calcul de leurs
fermetures */
RMCR := RMCR ∪ EXTRACTION_MMCR_MFCR(D,Candn,minsupp);
n:= n+1;
CandPn:= APRIORI_GEN(Candn1);
retourner RMCR;
Fin
considéré appartient à la représentation RMCR. Ses supports disjonctif et négatif seront ainsi
dérivés (cf. lignes 3–4). Le deuxième cas se présente lorsque le motif Xn’appartient pas à la
représentationRMCR mais il est compris entre deux éléments de RMCR (cf. ligne 7). Ainsi,
le motif fermé associé au motif Xsera déterminé (cf. ligne 8). Le motif Xpartage les mêmes
valeurs des différents supports et de bond que son fermé (cf. ligne 9–12). Dans le troisième et
dernier cas, le motif Xn’appartient pas à RMCR et n’est pas compris entre deux éléments
de RMCR. Ce motif n’est en conséquent pas corrélé rare et l’algorithme retourne un résultat
vide (cf. ligne 15).
5 Algorithme de régénération de MCR
La régénération de l’ensemble MCR à partir de RMCR s’effectue grâce à l’algorithme
REGENERATIONMCR dont le pseudo-code est donné par l’algorithme 3. Cet algorithme four-
nit l’ensemble MCR des motifs corrélés rares munis de leurs supports conjonctifs et de leurs
valeurs de la mesure bond. D’abord, tous les éléments de la représentation RMCR seront in-
sérés dans l’ensemble MCR (cf. ligne 4) initialement vide. Par la suite, l’algorithme parcours
l’ensemble MMCR des motifs minimaux et affecte à chaque motif minimal Mson fermé F
(cf. ligne 6). Puis l’ensemble de motifs compris entre le minimal Met son fermé Fest généré
(cf. ligne 7). Chaque élément de cet ensemble est un motif corrélé rare et sera inséré dans
l’ensemble MCR (cf. ligne 10). Lorsque tous les motifs générés sont insérés dans l’ensemble
MCR, alors l’algorithme retourne l’ensemble MCR (cf. ligne 11).
Fouille d’une représentation concise des motifs corrélés rares
Algorithme 2 :ESTMCR
Données : La représentation RMCR =MMCR ∪ MFCR, un motif X, et le nombre de
transactions de la base, c.-à.-d.,|T |.
Résultats : Le support conjonctif, disjonctif, négatif et la valeur de la mesure bond si le motif
Xest corrélé rare. Sinon, un résultat vide est retourné.
Début
1si (X∈RMCR)alors2
X.SDisj =X.SConj
X.bond /* X.SDisj correspond au support disjonctif de X*/ ;
3
X.SNeg =|T | − X.SDisj /* X.SNeg correspond au support négatif de X*/;4retourner {X,X.SConj, X.SDisj, X.SNeg, X.bond};5sinon6si (Y,Z∈RMCR|YXet XZ)alors7
F:= min{X1∈RMCR|XX1}/* Fdénote la fermeture de X, repérée8étant le plus petit motif de la représentation englobant X*/ ;
X.SConj =F.SConj;
9
X.bond =F.bond;10
X.SDisj =X.SConj
X.bond ;
11
X.SNeg =|T | − X.SDisj;12 retourner {X,X.SConj, X.SDisj, X.SNeg, X.bond};13 sinon14 retourner ;15
Fin16
Nous présentons dans ce qui suit l’application de la représentation RMCR dans un pro-
cessus de classification basé sur les règles d’association corrélées rares dans le cadre de la
détection d’intrusions dans les réseaux informatiques.
6 Application de la représentation RMCR dans la détection
d’intrusions
Les ensembles de motifs MMCR et MFCR, composant la représentation RMCR, sont
incorporés dans la dérivation des règles d’association génériques corrélées rares de la forme
Gen Fermé\Gen,avecGen MMCR et Fermé∈MFCR
(6).
Ensuite, à partir des règles génériques obtenues, les règles de classification seront extraites
et communiquées ensuite au classifieur que nous avons conçu. Nous présentons dans la suite
l’évaluation expérimentale de la classification basée sur les règles corrélées rares pour la base
de données KDD 99(7).
Les résultats expérimentauxobtenus sontdonnéspar la table1, avec“RAs”, “GEs”,“GAs”,
et “GC”, les abréviations respectives de “Règles d’Association”, “Génériques Exactes”, “Gé-
nériques Approximatives”, et “Génériques de Classification”. Par ailleurs, minconf dénote le
6Par “générique”, nous entendons que ces règles sont à prémisse minimale et à conclusion maximale, selon la
relation d’inclusion ensembliste.
7La base KDD 99 est disponible à l’adresse suivante :
http ://kdd.ics.uci.edu/databases/kddcup99/kddcup99.html
.
S. Bouasker, T. Hamrouni et S. Ben Yahia
Algorithme 3 :REGENERATIONMCR
Données : La représentation concise exacte RMCR =MMCR ∪ MFCR.
Résultats : L’ensemble MCR des motifs corrélés rares munis de leurs valeurs du support
conjonctif et de leurs valeurs de la mesure bond.
Début
1
MCR := ;2pour chaque (X∈RMCR)faire3
MCR := MCR ∪ {X,X.SConj,X.bond};4
pour chaque (M∈ MMCR)faire5
F:= min{M1∈MFCR|MM1}/* Fdénote la fermeture du motif minimal6corrélé rare M, repérée étant le plus petit motif par inclusion ensembliste de la
représentation englobant M*/ ;
pour chaque (X|MXet XF)faire
7
X.SConj =F.SConj;8
X.bond =F.bond;9
MCR := MCR ∪ {X,X.SConj,X.bond};10
retourner MCR;11Fin12
seuil minimal de la mesure de confiance. Nous entendons aussi par “Phase de construction”
l’étape de l’extraction de la représentation RMCR tandis que par “Phase de classification”,
nous entendons l’étape de dérivation des règles de classification à partir de la représentation
RMCR et leur application dans la détection d’intrusions.
Classe minsupp minbond minconf #RAs #RAs #RAs Temps CPU (en secondes)
de l’attaque (%)GEs GAs GC Phase de Phase de
construction classification
DOS 80 0,95 0,90 431 17 120 1
PROBE 60 0,70 0,90 232 561 15 55 1
R2L 80 0,90 0,70 2368 11 729 1
U2R 60 0,75 0,75 106 3 5 32 1
NORMALE 85 0,95 0,95 010 3393 15
TAB.1–Évaluation des règles d’association corrélées rares pour la base KDD 99.
Nous concluons, d’après les résultats obtenus, que le nombre de règles extraites ainsi que
les coûts de calcul varient d’une classe d’attaque à une autre. Toutefois, pour les différentes
classes d’attaques considérées, la phase de construction est plus coûteuse en temps d’exé-
cution que la phase de classification. Ceci est justifié par le fait que l’étape de construction
englobe l’extraction de la représentation concise RMCR, or cette opération est NP-difficile
étant donnée la complexité liée à la localisation des deux bordures associées aux contraintes
de corrélation et de rareté.
La table 2 compare les résultats obtenus par notre approcheà ceux offertspar les approches
basées respectivement sur les arbres de décisions et les réseaux bayésiens (Ben Amor et al.,
2004). Les résultats obtenus prouvent que notre approche offre de meilleures performances
que les autres approches pour les classes d’attaques DOS, R2L, NORMALE et U2R. Ainsi,
l’application des règles corrélées rares offre une solution intéressante dans le contexte de la
1 / 6 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !