Algorithmes d`extraction et d`interrogation d`une représentation

Téléchargement

Algorithmes d’extraction et d’interrogation d’une

représentation concise exacte des motifs corrélés rares :

Application à la détection d’intrusions

Souad Bouasker, Tarek Hamrouni, Sadok Ben Yahia

Département des Sciences de l’Informatique, Faculté des Sciences de Tunis, Tunisie

{tarek.hamrouni, sadok.benyahia}@fst.rnu.tn

Résumé. Nous proposons, dans ce papier 1, l’algorithme RCPRMINER d’ex-

traction de la représentation RMCR de l’ensemble MCR des motifs corrélés

rares. Les algorithmes d’interrogation de cette représentation et de régénération

de l’ensemble MCR à partir de RMCR sont aussi introduits. En outre, nous

décrivons le processus de classiﬁcation basée sur les règles génériques corrélées

rares et son application dans la détection d’intrusions.

1 Introduction et motivations

Nous avons récemment étudié, dans (Bouasker et al., 2012), l’ensemble MCR des motifs

rares corrélés associés à la mesure bond et nous avons déﬁnit, grâce à l’opérateur de fermeture

fbond (Ben Younes et al., 2012) associé à cette mesure et grâce à la notion de “classes d’équi-

valence”, la représentation concise RMCR de l’ensemble MCR. Dans ce travail, nous pro-

posons un nouvel algorithme RCPRMINER d’extraction de la représentation RMCR. Nous

décrivons également les algorithmes d’interrogation de RMCR et de régénération de l’en-

semble total MCR à partir de RMCR. Nous illustrons, aussi, l’apport bénéﬁque offert par

RMCR dans le cadre de la détection d’intrusions. Dans ce qui suit, nous rappelons brièvement

la déﬁnition de la représentation RMCR.

2 Aperçu de la représentation RMCR

Nous commençons par présenter l’expression de la mesure de corrélation bond, telle que

redéﬁnie dans (Ben Younes et al., 2012).

Déﬁnition 1 Étant donnée une base de transactions D=(T,I,R)où Test un ensemble de

transactions, Iest un ensemble d’items, et Rest une relation binaire liant TàI, la mesure

bond d’un motif X⊆ I est déﬁnie comme suit :

bond(X)=Supp(∧X)

Supp(∨X),

1. Une version étendue de ce travail se trouve à l’adresse suivante : http://arxiv.org/abs/1111.6552.

Ce travail est partiellement ﬁnancé par le projet Utique 11G1417.

Fouille d’une représentation concise des motifs corrélés rares

avec Supp(∧X) (resp. Supp(∨X)) le support conjonctif (resp. disjonctif )de X.

Toutefois, l’ensemble MCR 2des motifs corrélés rares associés à la mesure bond a été étudié

dans (Bouasker et al., 2012) et la représentation concise exacte RMCR a été également intro-

duite en se basant sur les “classes d’équivalences corrélées rares” induites par l’opérateur de

fermeture fbond (Ben Younes et al., 2012) associé à la mesure bond. En effet, la représentation

RMCR est composée de l’ensemble MFCR 3des motifs fermés corrélés rares, formant les

éléments maximaux des classes d’équivalence corrélées rares, et de l’ensemble MMCR 4des

motifs minimaux corrélés rares formant les éléments minimaux de ces classes d’équivalence.

En se basant sur ces deux ensembles, la représentation RMCR a été proposée.

Déﬁnition 2 (Représentation RMCR)La représentation RMCR est déﬁnie comme suit :

RMCR =MFCR ∪ MMCR.

Nous enchaînons, dans la suite, avec l’algorithme RCPRMINER d’extraction de RMCR.

3 Algorithme d’extraction de RMCR

L’algorithme RCPRMINER (Rare Correlated Patterns Representation Miner) permet de dé-

terminer, à partir d’un contexte d’extraction D, les éléments de la représentation RMCR

munis de leurs supports conjonctifs et de leurs valeurs de la mesure bond. Il se réalise en deux

principales étapes (voir l’algorithme 1) : la première est dédiée à l’extraction de l’ensemble

MCMax des motifs corrélés maximaux grâce à la procédure EXTRACTION_MCMAX et la

deuxième étape consiste à intégrer la contrainte de rareté ainsi que l’ensemble MCMax dans

la fouille de la représentation RMCR. À chaque itération de cette deuxième étape, un en-

semble de candidats est généré moyennant la procédure APRIORI_GEN. Les stratégies d’éla-

gage de ces candidats correspondent à : (i)L’élagage de tout candidat inclus dans un motif

corrélé maximal fréquent, (ii)L’élagage de tout candidat non inclus dans un motif cor-

rélé maximal rare, (iii)L’élagage par rapport à la propriété d’idéal d’ordre des motifs

minimaux corrélés. Les candidats retenus seront ensuite traités par la procédure EXTRAC-

TION_MMCR_MFCR. Cette dernière permet de déterminer les motifs minimaux corrélés

rares, de calculer leurs fermetures et de les insérer dans l’ensemble MFCR.

4 Algorithme d’interrogation de RMCR

L’interrogation de la représentation permet de déterminer pour un motif donné s’il est cor-

rélé rare. Si c’est le cas, alors les valeurs de son support conjonctif, disjonctif, négatif, ainsi

que la valeur de sa mesure bond, seront régénérées grâce à la représentation RMCR. Ceci

est réalisé moyennant l’algorithme ESTMCR dont le pseudo-code est donné par l’algorithme

2. L’algorithme ESTMCR distingue trois différents cas. Le premier se réalise lorsque le motif

considéré appartient à la représentation RMCR. Ses supports disjonctif et négatif seront ainsi

dérivés (cf. lignes 3–4). Le deuxième cas se présente lorsque le motif Xn’appartient pas à la

2. MCR ={X⊆ I|Supp(∧X)<minsupp et bond(X)≥minbond}.

3. MFCR ={X∈ MCR| ∀ X1⊃X:bond(X)>bond(X1)}.

4. MMCR ={X∈ MCR|∀X1⊂X:bond(X)<bond(X1)}.

S. Bouasker, T. Hamrouni et S. Ben Yahia

Algorithme 1: RCPRMINER

Données : Une base de transactions D= (T,I,R), minbond, et minsupp.

Résultat : La représentation concise exacte RMCR =MMCR ∪ MFCR.

début

RMCR := ∅;Cand0:= {∅};

/* La première étape */

MCMax := EXTRACTION_MCMAX(D,minbond);

/* La deuxième étape */

MCMaxF:= {X∈ MCMax |X.SConj ≥minsupp}/* X.SConj correspond au

support conjonctif de X*/;

MCMaxR:= {X∈ MCMax |X.SConj <minsupp};

CandP1:= {i|i∈ I} /* CandPncorrespond aux candidats potentiels de taille n*/;

tant que (CandPn6=∅)faire

/* Élagage des candidats potentiels */

Candn:= CandPn\ {Xn∈ CandPn|(∃Z∈ MCMaxF:Xn⊆Z) ou (@Z∈

MCMaxR:Xn⊆Z) ou (∃Yn−1⊂Xn:Yn−1/∈ Candn−1)};

/* Détermination des motifs minimaux corrélés rares de taille net calcul de leurs

fermetures */

RMCR := RMCR ∪ EXTRACTION_MMCR_MFCR(D,Candn,minsupp);

n:= n+1;

CandPn:= APRIORI_GEN(Candn−1) ;

retourner RMCR;

représentation RMCR mais il est compris entre deux éléments de RMCR (cf. ligne 7). Ainsi,

le motif fermé associé au motif Xsera déterminé (cf. ligne 8). Le motif Xpartage les mêmes

valeurs des différents supports et de bond que son fermé (cf. ligne 9–12). Dans le troisième et

dernier cas, le motif Xn’appartient pas à RMCR et n’est pas compris entre deux éléments

de RMCR. Ce motif n’est en conséquent pas corrélé rare et l’algorithme retourne un résultat

vide (cf. ligne 15).

5 Algorithme de régénération de MCR

La régénération de l’ensemble MCR à partir de RMCR s’effectue grâce à l’algorithme

REGENERATIONMCR dont le pseudo-code est donné par l’algorithme 3. Cet algorithme four-

nit l’ensemble MCR des motifs corrélés rares munis de leurs supports conjonctifs et de leurs

valeurs de la mesure bond. D’abord, tous les éléments de la représentation RMCR seront in-

sérés dans l’ensemble MCR (cf. ligne 4) initialement vide. Par la suite, l’algorithme parcours

l’ensemble MMCR des motifs minimaux et affecte à chaque motif minimal Mson fermé F

(cf. ligne 6). Puis l’ensemble de motifs compris entre le minimal Met son fermé Fest généré

(cf. ligne 7). Chaque élément de cet ensemble est un motif corrélé rare et sera inséré dans

l’ensemble MCR (cf. ligne 10). Lorsque tous les motifs générés sont insérés dans l’ensemble

MCR, alors l’algorithme retourne l’ensemble MCR (cf. ligne 11).

Nous présentons dans ce qui suit l’application de la représentation RMCR dans un pro-

cessus de classiﬁcation basé sur les règles d’association corrélées rares dans le cadre de la

Fouille d’une représentation concise des motifs corrélés rares

Algorithme 2: ESTMCR

Données : La représentation RMCR =MMCR ∪ MFCR, un motif X, et le

nombre de transactions de la base, c.-à.-d.,| T |.

Résultat : Le support conjonctif, disjonctif, négatif et la valeur de la mesure bond si le

motif Xest corrélé rare. Sinon, un résultat vide est retourné.

1début

2si (X∈ RMCR)alors

3X.SDisj =X.SConj

X.bond /* X.SDisj correspond au support disjonctif de X*/ ;

4X.SNeg =|T | − X.SDisj /* X.SNeg correspond au support négatif de X*/;

5retourner {X,X.SConj, X.SDisj, X.SNeg, X.bond};

6sinon

7si (∃Y,Z∈ RMCR | Y⊂Xet X⊂Z)alors

8F:= min⊆{X1∈ RMCR | X⊂X1}/* Fdénote la fermeture de X,

repérée étant le plus petit motif de la représentation englobant X*/ ;

9X.SConj =F.SConj;

10 X.bond =F.bond;

11 X.SDisj =X.SConj

X.bond ;

12 X.SNeg =|T | − X.SDisj;

13 retourner {X,X.SConj, X.SDisj, X.SNeg, X.bond};

14 sinon

15 retourner ∅;

détection d’intrusions dans les réseaux informatiques.

6 Application de la représentation RMCR dans la détection

d’intrusions

Les ensembles de motifs MMCR et MFCR, composant la représentation RMCR, sont

incorporés dans la dérivation des règles d’association génériques corrélées rares de la forme

Gen ⇒F ermé\Gen, avec Gen ∈ MMCR et F ermé∈ MFCR 5.

Ensuite, à partir des règles génériques obtenues, les règles de classiﬁcation seront extraites

et communiquées ensuite au classiﬁeur que nous avons conçu. Nous présentons dans la suite

l’évaluation expérimentale de la classiﬁcation basée sur les règles corrélées rares pour la base

de données KDD 99 6.

Les résultats expérimentaux sont donnés par la table 1, avec “RAs”, “GEs”, “GAs” et

“GC”, les abréviations respectives de “Règles d’Association”, “Génériques Exactes”, “Gé-

nériques Approximatives”, et “Génériques de Classiﬁcation”. Par ailleurs, minconf dénote le

5. Par “générique”, nous entendons que ces règles sont à prémisse minimale et à conclusion maximale, selon la

relation d’inclusion ensembliste.

6. La base KDD 99 est disponible à l’adresse suivante : http://kdd.ics.uci.edu/databases/

kddcup99/kddcup99.html.

S. Bouasker, T. Hamrouni et S. Ben Yahia

Algorithme 3: REGENERATIONMCR

Données : La représentation concise exacte RMCR =MMCR ∪ MFCR.

Résultat : L’ensemble MCR des motifs corrélés rares munis de leurs valeurs du support

conjonctif et de leurs valeurs de la mesure bond.

1début

2MCR := ∅;

3pour chaque (X∈ RMCR)faire

4MCR := MCR ∪ {X,X.SConj,X.bond};

5pour chaque (M∈ MMCR)faire

6F:= min⊆{M1∈ MFCR | M⊂M1}/* Fdénote la fermeture du motif minimal

corrélé rare M, repérée étant le plus petit motif par inclusion ensembliste de la

représentation englobant M*/ ;

7pour chaque (X|M⊂Xet X⊂F)faire

8X.SConj =F.SConj;

9X.bond =F.bond;

10 MCR := MCR ∪ {X,X.SConj,X.bond};

11 retourner MCR;

seuil minimal de la mesure de conﬁance. Nous entendons aussi par “Phase de construction”

l’étape de l’extraction de la représentation RMCR tandis que par “Phase de classiﬁcation”,

nous entendons l’étape de dérivation des règles de classiﬁcation à partir de la représentation

RMCR et leur application dans la détection d’intrusions.

Classe minsupp minbond minconf #RAs #RAs #RAs Temps CPU (sec.)

de l’attaque (%) GEs GAs GC Phase de Phase de

construction classiﬁcation

DOS 80 0,95 0,90 4 31 17 120 1

PROBE 60 0,70 0,90 232 561 15 55 1

R2L 80 0,90 0,70 2 368 1 1 729 1

U2R 60 0,75 0,75 106 3 5 32 1

NORMALE 85 0,95 0,95 0 10 3 393 15

TAB. 1 – Évaluation des règles d’association corrélées rares pour la base KDD 99.

Nous concluons, d’après les résultats obtenus, que le nombre de règles extraites ainsi que

les coûts de calcul varient d’une classe d’attaque à une autre. Toutefois, pour les différentes

classes d’attaques considérées, la phase de construction est plus coûteuse en temps d’exé-

cution que la phase de classiﬁcation. Ceci est justiﬁé par le fait que l’étape de construction

englobe l’extraction de la représentation concise RMCR, or cette opération est NP-difﬁcile

étant donnée la complexité liée à la localisation des deux bordures associées aux contraintes

de corrélation et de rareté.

La table 2 compare les résultats obtenus par notre approche à ceux offerts par les approches

basées respectivement sur les arbres de décisions et les réseaux bayésiens (Ben Amor et al.,

2004). Les résultats obtenus prouvent que notre approche offre de meilleures performances

que les autres approches pour les classes d’attaques DOS, R2L, NORMALE et U2R. Ainsi,

l’application des règles corrélées rares offre une solution intéressante dans le contexte de la

1 / 6 100%

Algorithmes d`extraction et d`interrogation d`une représentation

Documents connexes

Faire une suggestion

Produits

Assistance

Produits

Assistance

Algorithmes d`extraction et d`interrogation d`une représentation

Documents connexes

Faire une suggestion

Produits

Assistance

Ajouter ce document à la (aux) collections

Ajouter ce document à enregistré

Suggérez-nous comment améliorer StudyLib