L`apprentissage automatique établit de nouvelles

publicité
L'apprentissage automatique
établit de nouvelles normes en
matière de prévention des
pertes de données :
descrip
description,
tion, signature,
apprentissage
Livre blanc : Prévention des pertes de données
L'apprentissage automatique établit de nouvelles
normes en matière de prévention des pertes de
données : descrip
description,
tion, signature, apprentissage
Sommaire
Comment retrouver votre propriété intellectuelle dans un océan de données non structurées . . . . . . . . . . . . . . . . . . . 1
Technologies actuelles de détection et de prévention de perte des données : description et signature . . . . . . . . . . . 1
Une nouvelle façon de rechercher et de protéger les données : Vector Machine Learning . . . . . . . . . . . . . . . . . . . . . . . . 2
Comment opère la technologie Vector Machine Learning. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
Mise en pratique de la technologie Vector Maching Learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
Protection de type "Zero-Day" automatisée . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
Le nouveau modèle de détection et de prévention des pertes de données : description, signature et
apprentissage. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
Pour en savoir plus sur la technologie Vector Machine Learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
L'apprentissage automatique établit de nouvelles normes en matière de prévention des pertes de
données : description, signature, apprentissage
Comment retrouver votre propriété intellectuelle dans un océan de données non structurées
Beaucoup d'entreprises actuelles ont recours à des programmes de prévention des pertes de données (DLP, data loss
prevention) pour identifier leurs informations sensibles et créer des politiques visant à contrôler les emplacements où les
données doivent ou ne doivent pas être transférées, ainsi que leur mode de transfert. Cependant, dans un monde où les
menaces en ligne continuent de croître presque quotidiennement, les produits et programmes DLP sont sans cesse
confrontés à de nouveaux défis, en particulier de la part des cybercriminels qui visent votre propriété intellectuelle.Selon
un rapport du gouvernement fédéral des Etats-Unis daté de mai 2009, les pertes de propriété intellectuelle résultant
d'attaques de cybercriminels visant des entreprises américaines ont augmenté de plus d'1 milliard de dollars dans la
période de 2008 à 2009. 1
C'est pourquoi il est plus essentiel que jamais de protéger la propriété intellectuelle et les données sensibles présentes
dans des documents tels que les fichiers Microsoft® Word™, les feuilles de calcul et les fichiers d'image. Cependant,
localiser toutes ces données dans l'ensemble de l'entreprise est devenu beaucoup plus difficile. En effet, les informations
sensibles sont souvent noyées dans un océan de données non structurées qui prolifèrent d'un bout à l'autre de l'entreprise
dans d'innombrables emplacements et périphériques.
Comme une revue professionnelle le soulignait récemment, "Le principal défi auquel est confronté l'informatique
d'aujourd'hui est une croissance exponentielle des données non structurées (correspondant, selon IDC, à un taux annuel
composé de 61 %, soit trois fois le taux de croissance des données structurées).Ces données sont en outre éparpillées
dans toute l'entreprise : dans des dossiers de serveurs de fichiers, sur des portables ou sur des clés USB." 2
Technologies actuelles de détection et de prévention de perte des données : description et
signature
La protection des informations sensibles par un contrôle et une analyse approfondis des contenus à l'aide de la
technologie DLP est généralement la première étape du processus de prévention des pertes ou des détournements de
données. Les technologies de détection DLP actuelles reposent sur des méthodes d'analyse de contenu multiples allant de
l'identification de mots-clés, de dictionnaires et d'expressions ordinaires à la comparaison de documents partiels et à
l'établissement de signatures (fingerprinting). Ces technologies peuvent être classées dans deux grandes catégories :
Technologie de description - Protège les données confidentielles en recherchant des correspondances de mots-clés,
d'expressions ou de modèles, en reconnaissant les types de fichiers, ainsi que par d'autres techniques de détection de
signature.
Technologie de signature - Opère en recherchant des correspondances exactes de fichiers entiers ou partiels. Les
données à protéger sont d'abord collectées dans différents formats de fichiers tels que Microsoft Word, Excel® et PDF.
Elles sont ensuite marquées (via une technologie de signature ou fingerprinting) à l'aide d'un algorithme de hachage, de
façon à produire un index déployable dans le cadre d'une politique DLP.
1-"The Financial Management of Cyber Risk" (La gestion financière du cyber-risque), document publié par l'Internet Security Alliance (ISA) et l'American National Standards Institute (ANSI), 2010, p.10 Ce document est
téléchargeable sur le site www.isalliance.org ou www.ansi.org
2-“A Strategy for Protecting Unstructured Data,” (Stratégie de protection des données non structurées) Adam Ely, InformationWeek.com, 10 sept. 2010 http://www.informationweek.com/news/business_intelligence/
information_mgt/showArticle.jhtml?articleID=227500068
1
L'apprentissage automatique établit de nouvelles normes en matière de prévention des pertes de
données : description, signature, apprentissage
Bien qu'efficaces pour protéger une bonne partie des informations cruciales d'une entreprise, les technologies de
signature et de description ont leurs limites lorsqu'il s'agit de traiter des quantités toujours plus grandes de données non
structurées ou des informations relevant de la propriété intellectuelle telles que les formules de produits, les rapports de
vente ou de marketing, et le code source.
En effet, la collecte de toutes les données à protéger et à marquer peut s'avérer un processus particulièrement lourd pour
les entreprises dotées de ressources limitées, notamment quand ces données sont très dispersées. Par conséquent, la
technique de signature est surtout utile pour les sources de données hautement spécifiques et centralisées. Dans le cas de
données textuelles non structurées, on utilise généralement des listes de mots-clés pour rechercher les données sensibles.
Cette approche prend cependant beaucoup de temps car, pour plus de précision, il est nécessaire de générer et d'ajuster
les listes de mots-clés en permanence.
Une nouvelle façon de rechercher et de protéger les données : Vector Machine Learning
Une technologie de détection DLP d'un genre nouveau vient d'apparaître sur le marché, dont la caractéristique est de
permettre aux entreprises d'employer des logiciels qui apprennent à détecter quelles catégories de données
confidentielles ont besoin d'être protégées. Cette approche améliore continuellement la précision et la fiabilité de la
recherche d'informations sensibles grâce à un processus de formation. Appliquant le concept d'apprentissage
automatique aux techniques DLP, la technologie Vector Machine Learning (VML) vous aide à protéger rapidement et
efficacement les données IP et les informations confidentielles parmi le flot toujours croissant des données non
structurées.
Bien que le concept d'apprentissage automatique soit employé depuis des dizaines d'années à toute sortes de fins (des
moteurs antispam aux algorithmes de traduction de Google™), il n'avait encore jamais été appliqué à l'analyse des
contenus DLP. En tant que technologie de détection DLP, VML apprend à reconnaître les informations sensibles qui
doivent être protégées en appliquant des algorithmes à un ensemble d'exemples de documents donné.
Comment opère la technologie Vector Machine Learning
La figure 1 montre le processus VML par lequel des exemples positifs et négatifs de données sensibles sont fournis durant
l'étape de "formation". Durant cette étape, des caractéristiques sont extraites afin d'élaborer un profil statistique qui
servira ensuite à classer les données textuelles non structurées à protéger.
2
L'apprentissage automatique établit de nouvelles normes en matière de prévention des pertes de
données : description, signature, apprentissage
Le processus de formation définit la catégorie de données à protéger par le biais des exemples de documents. Ces
données comprennent des exemples positifs de données à protéger (propriété intellectuelle, informations relatives aux
fusions/acquisitions, etc.) ainsi que des exemples négatifs de données à ignorer. Par exemple, les exemples positifs
peuvent être des documents contenant du code source propriétaire et les exemples négatifs, un projet open source
téléchargé sur Internet. Les deux ensembles de données de formation sont nécessaires. Ils permettent en effet d'extraire
les caractéristiques clés constituant le profil VML qui optimisera la précision durant l'étape de détection.
Le processus de mise en oeuvre d'une politique Vector Machine Learning est très simple. L'utilisateur crée un profil VML
en chargeant des exemples de documents positifs et négatifs. Le moteur VML procède à la formation en utilisant les
exemples de documents et génère un modèle statistique, ou profil, qui est déployé une fois que l'utilisateur a vérifié et
accepté la formation. Durant la phase de détection, le profil VML est employé dans le cadre de la politique pour classer
tout document ou message inconnu. Si les données sont semblables aux exemples de documents positifs, un "incident" est
généré.
Pendant la détection, le profil VML affecte une "note de similitude" au document ou message inconnu dans le cadre du
classement. Une note de similitude de 10 indique que les données examinées sont exactement semblables aux exemples
de documents fournis durant la formation. Une note de 0 indique que les données examinées n'ont rien à voir avec celles
de ces exemples.
Chaque fois que des faux positifs sont générés, ils viennent alimenter le groupe de formation, ce qui permet d'ajuster le
profil et d'accroître la précision au fil du temps. Une grande entreprise de matériel informatique utilisant la technologie
VML a notamment constaté qu'une seule itération d'apprentissage avait permis (en alimentant le groupe de formation
3
L'apprentissage automatique établit de nouvelles normes en matière de prévention des pertes de
données : description, signature, apprentissage
négatif en faux positifs) de réduire le taux de faux positif de 4 %, un taux de précision comparable à celui obtenu avec les
technologies de signature.
Mise en pratique de la technologie Vector Maching Learning
La figure 2 contient plusieurs études de cas montrant les avantages de la technologie VML dans la détection des
informations sensibles parmi des données non structurées. Il convient de noter que le "point fort" de la technologie VML
est sa capacité à protéger efficacement des données qui sont habituellement difficiles d'accès avec la technologie de
signature ou des informations difficilement identifiables dans un ensemble de mots-clés ou de phrases.
Par exemple, la technologie VML est idéale pour protéger des données telles que le code source "propriétaire" d'un
produit, les modèles d'échange d'un prestataire de services financiers ou les algorithmes actuariels des compagnies
d'assurance. Dans le cas du code source, la technologie VML permet, par exemple, de couvrir un programme entièrement
nouveau que vient d'écrire un développeur sur son ordinateur portable (et donc jamais vu auparavant). Elle garantit en
outre que ce nouveau code sera pris en charge lors de l'application de la politique DLP.
VML est également utile pour la détection de données sensibles telles que les rapports de vente qui changent
fréquemment et existent dans plusieurs format (documents Excel et Word, messages électroniques, etc.). En collectant des
exemples de ces types de rapports à des fins de formation, VML peut créer un profil capable d'identifier et de mettre en
application des politiques de protection couvrant la distribution hebdomadaire de nouveaux rapports de vente, quel que
soit leur format.
Protection de type "Zero-Day" automatisée
La technologie Vector Machine Learning possède des avantages spécifiques qui viennent compléter ceux des technologies
de description et de signature existantes. Elle permet ainsi aux entreprises de mieux protéger leurs informations cruciales,
en particulier les données non structurées dispersées dans d'innombrables emplacements.
4
L'apprentissage automatique établit de nouvelles normes en matière de prévention des pertes de
données : description, signature, apprentissage
Des processus automatiques simplifient la configuration et la gestion – En automatisant le processus de définition et
d'ajustement des politiques, VML réduit sensiblement le nombre d'heures-hommes nécessaires pour configurer et gérer
les technologies DLP. La formation ne nécessitant que des exemples de données à protéger, la configuration peut être
effectuée rapidement et efficacement. De nombreuses tâches, telles que celles qui consistent à gérer les listes de mots
clés ou à tenter de collecter toutes les données à des fins de signature sont éliminées. De plus, le nombre de faux positifs
et d'ajustements nécessaires diminuent à mesure que la technologie apprend à reconnaître les informations ciblées et
gagne en précision.
L'apprentissage dynamique améliore la précision et la rapidité de la protection. Tout comme les logiciels antivirus, la
technologie Vector Machine Learning assure la protection de type "Zero-day" des données confidentielles avec la même
précision que les technologies de signature. Les facultés d'apprentissage dynamique de VML permettent de reconnaître
des informations récemment mises à jour ou encore jamais vues plus facilement et plus précisément, et de couvrir ainsi
les données sensibles non encore créées. Face à la prolifération de plus en plus rapide des données non structurées, la
technologie VML complète l'analyse de contenu rendue possible par les technologies de signature et de description,
optimisant ainsi l'application des politiques DLP.
Le nouveau modèle de détection et de prévention des pertes de données : description,
signature et apprentissage
L'avènement de la technologie Vector Machine Learning marque l'apparition d'un nouveau type d'analyse de contenu qui
vient compléter et améliorer les technologies DLP existantes visant à protéger les informations privées ou confidentielles.
Comme le montre la figure 3, la combinaison de VML avec les technologies de description et de signature existantes
procure un nouveau modèle apte à améliorer l'efficacité et les performances des produits et programmes DLP. Les
entreprises qui ont à gérer des quantités croissantes de données non structurées et d'informations confidentielles
hautement dispersées sont donc fortement encouragées à découvrir et à évaluer la technologie VML.
5
L'apprentissage automatique établit de nouvelles normes en matière de prévention des pertes de
données : description, signature, apprentissage
Pour en savoir plus sur la technologie Vector Machine Learning
Pour plus de détails sur la façon dont votre entreprise peut mettre à profit la technologie Vector Machine Learning pour
optimiser ses investissements présents et futurs dans des programmes et technologies DLP, rendez-vous sur le site
http://www.symantec.com/fr/fr/business/products/family.jsp?familyid=data-loss-prevention ou contactez votre
interlocuteur commercial Symantec local.
Contactez un spécialiste produit
Pour connaître les coordonnées des bureaux dans un pays en particulier, visitez notre site Web à l'adresse suivante :
www.symantec.fr
6
A propos de Symantec
Symantec est un leader mondial des solutions de
sécurité, de stockage et de gestion des systèmes
destinées à aider les particuliers et les entreprises à
sécuriser et gérer leur environnement informatique.
Nos logiciels et services permettent d'assurer une
protection plus complète et plus efficace contre
davantage de risques à différents points et
d'instaurer ainsi la confiance, quel que soit l'endroit
où les informations sont utilisées ou stockées. La
société Symantec, dont le siège social est basé à
Mountain View en Californie, est présente dans
40 pays. Des informations supplémentaires sont
disponibles à l'adresse www.symantec.fr.
Pour connaître les
Symantec France
coordonnées des bureaux
17 avenue de l'Arche
dans un pays spécifique,
92671 Courbevoie Cedex
consultez notre site Web.
01 41 38 57 00
www.symantec.com/fr
Symantec aide les entreprises à sécuriser et à gérer
leur environnement informatique au moyen de
solutions de conformité informatique, de gestion de
la recherche électronique et de la conservation, de
prévention des pertes de données et de sécurité de
la messagerie.
Copyright © 2010 Symantec Corporation. Tous droits
réservés. Symantec et le logo Symantec sont des
marques commerciales ou des marques déposées de
Symantec Corporation ou de ses filiales aux EtatsUnis et dans d'autres pays. Google est une marque
déposée de Google et de ses filiales aux Etats-Unis et
dans d'autres pays. Microsoft Word et Microsoft Excel
sont des marques déposées de Microsoft et de ses
filiales aux Etats-Unis et dans d’autres pays. Les
autres noms peuvent être des marques commerciales
de leurs détenteurs respectifs.
12/2010 21158455
Téléchargement