Algorithmes d’extraction et d’interrogation d’une représentation concise exacte des motifs corrélés rares : Application à la détection d’intrusions Souad Bouasker, Tarek Hamrouni, Sadok Ben Yahia Département des Sciences de l’Informatique, Faculté des Sciences de Tunis, Tunisie {tarek.hamrouni, sadok.benyahia}@fst.rnu.tn Résumé. Nous proposons, dans ce papier 1 , l’algorithme R CPR M INER d’extraction de la représentation RMCR de l’ensemble MCR des motifs corrélés rares. Les algorithmes d’interrogation de cette représentation et de régénération de l’ensemble MCR à partir de RMCR sont aussi introduits. En outre, nous décrivons le processus de classification basée sur les règles génériques corrélées rares et son application dans la détection d’intrusions. 1 Introduction et motivations Nous avons récemment étudié, dans (Bouasker et al., 2012), l’ensemble MCR des motifs rares corrélés associés à la mesure bond et nous avons définit, grâce à l’opérateur de fermeture fbond (Ben Younes et al., 2012) associé à cette mesure et grâce à la notion de “classes d’équivalence”, la représentation concise RMCR de l’ensemble MCR. Dans ce travail, nous proposons un nouvel algorithme R CPR M INER d’extraction de la représentation RMCR. Nous décrivons également les algorithmes d’interrogation de RMCR et de régénération de l’ensemble total MCR à partir de RMCR. Nous illustrons, aussi, l’apport bénéfique offert par RMCR dans le cadre de la détection d’intrusions. Dans ce qui suit, nous rappelons brièvement la définition de la représentation RMCR. 2 Aperçu de la représentation RMCR Nous commençons par présenter l’expression de la mesure de corrélation bond, telle que redéfinie dans (Ben Younes et al., 2012). Définition 1 Étant donnée une base de transactions D = (T , I, R) où T est un ensemble de transactions, I est un ensemble d’items, et R est une relation binaire liant T à I, la mesure bond d’un motif X ⊆ I est définie comme suit : Supp( ∧ X ) bond(X ) = Supp( ∨ X ) , 1. Une version étendue de ce travail se trouve à l’adresse suivante : http://arxiv.org/abs/1111.6552. Ce travail est partiellement financé par le projet Utique 11G1417. Fouille d’une représentation concise des motifs corrélés rares avec Supp(∧ X ) (resp. Supp(∨ X )) le support conjonctif (resp. disjonctif ) de X. Toutefois, l’ensemble MCR 2 des motifs corrélés rares associés à la mesure bond a été étudié dans (Bouasker et al., 2012) et la représentation concise exacte RMCR a été également introduite en se basant sur les “classes d’équivalences corrélées rares” induites par l’opérateur de fermeture fbond (Ben Younes et al., 2012) associé à la mesure bond. En effet, la représentation RMCR est composée de l’ensemble MFCR 3 des motifs fermés corrélés rares, formant les éléments maximaux des classes d’équivalence corrélées rares, et de l’ensemble MMCR 4 des motifs minimaux corrélés rares formant les éléments minimaux de ces classes d’équivalence. En se basant sur ces deux ensembles, la représentation RMCR a été proposée. Définition 2 (Représentation RMCR) La représentation RMCR est définie comme suit : RMCR = MFCR ∪ MMCR. Nous enchaînons, dans la suite, avec l’algorithme R CPR M INER d’extraction de RMCR. 3 Algorithme d’extraction de RMCR L’algorithme R CPR M INER (Rare Correlated Patterns Representation Miner) permet de déterminer, à partir d’un contexte d’extraction D, les éléments de la représentation RMCR munis de leurs supports conjonctifs et de leurs valeurs de la mesure bond. Il se réalise en deux principales étapes (voir l’algorithme 1) : la première est dédiée à l’extraction de l’ensemble MCMax des motifs corrélés maximaux grâce à la procédure E XTRACTION _MCM AX et la deuxième étape consiste à intégrer la contrainte de rareté ainsi que l’ensemble MCMax dans la fouille de la représentation RMCR. À chaque itération de cette deuxième étape, un ensemble de candidats est généré moyennant la procédure A PRIORI _G EN. Les stratégies d’élagage de ces candidats correspondent à : (i) L’élagage de tout candidat inclus dans un motif corrélé maximal fréquent, (ii) L’élagage de tout candidat non inclus dans un motif corrélé maximal rare, (iii) L’élagage par rapport à la propriété d’idéal d’ordre des motifs minimaux corrélés. Les candidats retenus seront ensuite traités par la procédure E XTRAC TION _MMCR_MFCR. Cette dernière permet de déterminer les motifs minimaux corrélés rares, de calculer leurs fermetures et de les insérer dans l’ensemble MFCR. 4 Algorithme d’interrogation de RMCR L’interrogation de la représentation permet de déterminer pour un motif donné s’il est corrélé rare. Si c’est le cas, alors les valeurs de son support conjonctif, disjonctif, négatif, ainsi que la valeur de sa mesure bond, seront régénérées grâce à la représentation RMCR. Ceci est réalisé moyennant l’algorithme E ST MCR dont le pseudo-code est donné par l’algorithme 2. L’algorithme E ST MCR distingue trois différents cas. Le premier se réalise lorsque le motif considéré appartient à la représentation RMCR. Ses supports disjonctif et négatif seront ainsi dérivés (cf. lignes 3–4). Le deuxième cas se présente lorsque le motif X n’appartient pas à la 2. MCR = {X ⊆ I|Supp( ∧ X ) < minsupp et bond(X ) ≥ minbond}. 3. MF CR = {X ∈ MCR| ∀ X1 ⊃ X : bond(X ) > bond(X1 )}. 4. MMCR = {X ∈ MCR|∀X1 ⊂ X : bond(X ) < bond(X1 )}. S. Bouasker, T. Hamrouni et S. Ben Yahia Algorithme 1: R CPR M INER Données : Une base de transactions D = (T , I, R), minbond, et minsupp. Résultat : La représentation concise exacte RMCR = MMCR ∪ MFCR. début RMCR := ∅ ; Cand0 := {∅}; /* La première étape */ MCMax := E XTRACTION _MCM AX (D, minbond); /* La deuxième étape */ MCMaxF := {X ∈ MCMax | X.SConj ≥ minsupp} /* X.SConj correspond au support conjonctif de X */; MCMaxR := {X ∈ MCMax | X.SConj < minsupp} ; CandP 1 := {i | i ∈ I} /* CandP n correspond aux candidats potentiels de taille n */; tant que (CandP n 6= ∅) faire /* Élagage des candidats potentiels */ Candn := CandP n \ {Xn ∈ CandP n | (∃ Z ∈ MCMaxF : Xn ⊆ Z) ou (@ Z ∈ MCMaxR : Xn ⊆ Z) ou (∃ Yn−1 ⊂ Xn : Yn−1 ∈ / Candn−1 )}; /* Détermination des motifs minimaux corrélés rares de taille n et calcul de leurs fermetures */ RMCR := RMCR ∪ E XTRACTION _MMCR_MFCR(D, Candn , minsupp); n := n +1; CandP n := A PRIORI _G EN (Candn−1 ) ; retourner RMCR; représentation RMCR mais il est compris entre deux éléments de RMCR (cf. ligne 7). Ainsi, le motif fermé associé au motif X sera déterminé (cf. ligne 8). Le motif X partage les mêmes valeurs des différents supports et de bond que son fermé (cf. ligne 9–12). Dans le troisième et dernier cas, le motif X n’appartient pas à RMCR et n’est pas compris entre deux éléments de RMCR. Ce motif n’est en conséquent pas corrélé rare et l’algorithme retourne un résultat vide (cf. ligne 15). 5 Algorithme de régénération de MCR La régénération de l’ensemble MCR à partir de RMCR s’effectue grâce à l’algorithme R EGENERATION MCR dont le pseudo-code est donné par l’algorithme 3. Cet algorithme fournit l’ensemble MCR des motifs corrélés rares munis de leurs supports conjonctifs et de leurs valeurs de la mesure bond. D’abord, tous les éléments de la représentation RMCR seront insérés dans l’ensemble MCR (cf. ligne 4) initialement vide. Par la suite, l’algorithme parcours l’ensemble MMCR des motifs minimaux et affecte à chaque motif minimal M son fermé F (cf. ligne 6). Puis l’ensemble de motifs compris entre le minimal M et son fermé F est généré (cf. ligne 7). Chaque élément de cet ensemble est un motif corrélé rare et sera inséré dans l’ensemble MCR (cf. ligne 10). Lorsque tous les motifs générés sont insérés dans l’ensemble MCR, alors l’algorithme retourne l’ensemble MCR (cf. ligne 11). Nous présentons dans ce qui suit l’application de la représentation RMCR dans un processus de classification basé sur les règles d’association corrélées rares dans le cadre de la Fouille d’une représentation concise des motifs corrélés rares Algorithme 2: E ST MCR Données : La représentation RMCR = MMCR ∪ MFCR, un motif X, et le nombre de transactions de la base, c.-à.-d., | T |. Résultat : Le support conjonctif, disjonctif, négatif et la valeur de la mesure bond si le motif X est corrélé rare. Sinon, un résultat vide est retourné. 1début 2 si (X ∈ RMCR) alors X.SConj 3 X.SDisj = X.bond /* X.SDisj correspond au support disjonctif de X */ ; 4 X.SNeg = |T | − X.SDisj /* X.SNeg correspond au support négatif de X */; 5 retourner {X, X.SConj, X.SDisj, X.SNeg, X.bond} ; 6 sinon 7 si (∃ Y , Z ∈ RMCR | Y ⊂ X et X ⊂ Z) alors 8 F := min⊆ {X1 ∈ RMCR | X ⊂ X1 } /* F dénote la fermeture de X, repérée étant le plus petit motif de la représentation englobant X */ ; 9 X.SConj = F .SConj; 10 X.bond = F .bond; X.SConj 11 X.SDisj = X.bond ; 12 X.SNeg = |T | − X.SDisj; 13 retourner {X, X.SConj, X.SDisj, X.SNeg, X.bond} ; 14 sinon 15 retourner ∅; détection d’intrusions dans les réseaux informatiques. 6 Application de la représentation RMCR dans la détection d’intrusions Les ensembles de motifs MMCR et MFCR, composant la représentation RMCR, sont incorporés dans la dérivation des règles d’association génériques corrélées rares de la forme Gen ⇒ F ermé \Gen, avec Gen ∈ MMCR et F ermé ∈ MFCR 5 . Ensuite, à partir des règles génériques obtenues, les règles de classification seront extraites et communiquées ensuite au classifieur que nous avons conçu. Nous présentons dans la suite l’évaluation expérimentale de la classification basée sur les règles corrélées rares pour la base de données KDD 99 6 . Les résultats expérimentaux sont donnés par la table 1, avec “RAs”, “GEs”, “GAs” et “GC”, les abréviations respectives de “Règles d’Association”, “Génériques Exactes”, “Génériques Approximatives”, et “Génériques de Classification”. Par ailleurs, minconf dénote le 5. Par “générique”, nous entendons que ces règles sont à prémisse minimale et à conclusion maximale, selon la relation d’inclusion ensembliste. 6. La base KDD 99 est disponible à l’adresse suivante : http://kdd.ics.uci.edu/databases/ kddcup99/kddcup99.html. S. Bouasker, T. Hamrouni et S. Ben Yahia Algorithme 3: R EGENERATION MCR Données : La représentation concise exacte RMCR = MMCR ∪ MFCR. Résultat : L’ensemble MCR des motifs corrélés rares munis de leurs valeurs du support conjonctif et de leurs valeurs de la mesure bond. 1début 2 MCR := ∅; 3 pour chaque (X ∈ RMCR) faire 4 MCR := MCR ∪ {X, X.SConj, X.bond} ; 10 pour chaque (M ∈ MMCR) faire F := min⊆ {M1 ∈ MFCR | M ⊂ M1 } /* F dénote la fermeture du motif minimal corrélé rare M , repérée étant le plus petit motif par inclusion ensembliste de la représentation englobant M */ ; pour chaque (X | M ⊂ X et X ⊂ F ) faire X.SConj = F .SConj; X.bond = F .bond; MCR := MCR ∪ {X, X.SConj, X.bond} ; 11 retourner MCR; 5 6 7 8 9 seuil minimal de la mesure de confiance. Nous entendons aussi par “Phase de construction” l’étape de l’extraction de la représentation RMCR tandis que par “Phase de classification”, nous entendons l’étape de dérivation des règles de classification à partir de la représentation RMCR et leur application dans la détection d’intrusions. Classe de l’attaque minsupp (%) minbond minconf # RAs GEs # RAs GAs # RAs GC D OS P ROBE R2L U2R 80 60 80 60 85 0,95 0,70 0,90 0,75 0,95 0,90 0,90 0,70 0,75 0,95 4 232 2 106 0 31 561 368 3 10 17 15 1 5 3 N ORMALE Temps CPU (sec.) Phase de Phase de construction classification 120 55 1 729 32 393 1 1 1 1 15 TAB . 1 – Évaluation des règles d’association corrélées rares pour la base KDD 99. Nous concluons, d’après les résultats obtenus, que le nombre de règles extraites ainsi que les coûts de calcul varient d’une classe d’attaque à une autre. Toutefois, pour les différentes classes d’attaques considérées, la phase de construction est plus coûteuse en temps d’exécution que la phase de classification. Ceci est justifié par le fait que l’étape de construction englobe l’extraction de la représentation concise RMCR, or cette opération est NP-difficile étant donnée la complexité liée à la localisation des deux bordures associées aux contraintes de corrélation et de rareté. La table 2 compare les résultats obtenus par notre approche à ceux offerts par les approches basées respectivement sur les arbres de décisions et les réseaux bayésiens (Ben Amor et al., 2004). Les résultats obtenus prouvent que notre approche offre de meilleures performances que les autres approches pour les classes d’attaques D OS, R2L, N ORMALE et U2R. Ainsi, l’application des règles corrélées rares offre une solution intéressante dans le contexte de la Fouille d’une représentation concise des motifs corrélés rares Classe d’attaque D OS P ROBE R2L U2R N ORMALE RAs corrélées rares 98,68 70,69 81,52 38,46 100,00 Arbres de décision 97,24 77,92 0,52 13,60 99,50 Réseaux bayésiens 96,65 88,33 8,66 11,84 97,68 TAB . 2 – Comparaison des taux de détection obtenus pour les règles corrélées rares versus les approches de l’état de l’art. détection d’intrusions. Les taux de détection les plus intéressants, achevés par notre approche, sont ceux des classes d’attaques N ORMALE et D OS. En effet, ceci est expliqué par la taille élevée en nombre de connections de ces deux classes d’attaques. 7 Conclusion Dans ce travail, nous avons proposé l’algorithme R CPR M INER d’extraction de la représentation RMCR de l’ensemble MCR. Nous avons aussi introduit l’algorithme E ST MCR d’interrogation de cette représentation ainsi que l’algorithme R EGENERATION MCR de dérivation de l’ensemble MCR à partir de RMCR. L’utilité du processus de classification, basée sur les règles d’association corrélées rares, a été par ailleurs prouvée dans le cadre de la détection d’intrusions. Références Ben Amor, N., S. Benferhat, et Z. Elouedi (2004). Naive bayes vs decision trees in intrusion detection systems. In Proc. of the ACM Symp. on Applied Computing (SAC), pp. 420–424. Ben Younes, N., T. Hamrouni, et S. Ben Yahia (2012). À la recherche des motifs corrélés : proposition d’une nouvelle représentation concise exacte associée à la mesure bond. Technique et Science Informatiques (TSI), À paraître. Bouasker, S., T. Hamrouni, et S. Ben Yahia (2012). Motifs corrélés rares : caractérisation et nouvelles représentations concises exactes. Mesurer et évaluer la qualité des données et des connaissances, À paraître. Summary In this paper, we introduce the algorithm R CPR M INER allowing the extraction of RCPR. We also present dedicated algorithms allowing the query of the RCPR representation and the regeneration of the whole set RCP starting from this representation. The effectiveness of the proposed classification method, based on generic rare correlated association rules derived from RCPR, has also been proved in the context of intrusion detection.