L'apprentissage automatique établit de nouvelles normes en matière de prévention des pertes de données : descrip description, tion, signature, apprentissage Livre blanc : Prévention des pertes de données L'apprentissage automatique établit de nouvelles normes en matière de prévention des pertes de données : descrip description, tion, signature, apprentissage Sommaire Comment retrouver votre propriété intellectuelle dans un océan de données non structurées . . . . . . . . . . . . . . . . . . . 1 Technologies actuelles de détection et de prévention de perte des données : description et signature . . . . . . . . . . . 1 Une nouvelle façon de rechercher et de protéger les données : Vector Machine Learning . . . . . . . . . . . . . . . . . . . . . . . . 2 Comment opère la technologie Vector Machine Learning. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 Mise en pratique de la technologie Vector Maching Learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 Protection de type "Zero-Day" automatisée . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 Le nouveau modèle de détection et de prévention des pertes de données : description, signature et apprentissage. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 Pour en savoir plus sur la technologie Vector Machine Learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 L'apprentissage automatique établit de nouvelles normes en matière de prévention des pertes de données : description, signature, apprentissage Comment retrouver votre propriété intellectuelle dans un océan de données non structurées Beaucoup d'entreprises actuelles ont recours à des programmes de prévention des pertes de données (DLP, data loss prevention) pour identifier leurs informations sensibles et créer des politiques visant à contrôler les emplacements où les données doivent ou ne doivent pas être transférées, ainsi que leur mode de transfert. Cependant, dans un monde où les menaces en ligne continuent de croître presque quotidiennement, les produits et programmes DLP sont sans cesse confrontés à de nouveaux défis, en particulier de la part des cybercriminels qui visent votre propriété intellectuelle.Selon un rapport du gouvernement fédéral des Etats-Unis daté de mai 2009, les pertes de propriété intellectuelle résultant d'attaques de cybercriminels visant des entreprises américaines ont augmenté de plus d'1 milliard de dollars dans la période de 2008 à 2009. 1 C'est pourquoi il est plus essentiel que jamais de protéger la propriété intellectuelle et les données sensibles présentes dans des documents tels que les fichiers Microsoft® Word™, les feuilles de calcul et les fichiers d'image. Cependant, localiser toutes ces données dans l'ensemble de l'entreprise est devenu beaucoup plus difficile. En effet, les informations sensibles sont souvent noyées dans un océan de données non structurées qui prolifèrent d'un bout à l'autre de l'entreprise dans d'innombrables emplacements et périphériques. Comme une revue professionnelle le soulignait récemment, "Le principal défi auquel est confronté l'informatique d'aujourd'hui est une croissance exponentielle des données non structurées (correspondant, selon IDC, à un taux annuel composé de 61 %, soit trois fois le taux de croissance des données structurées).Ces données sont en outre éparpillées dans toute l'entreprise : dans des dossiers de serveurs de fichiers, sur des portables ou sur des clés USB." 2 Technologies actuelles de détection et de prévention de perte des données : description et signature La protection des informations sensibles par un contrôle et une analyse approfondis des contenus à l'aide de la technologie DLP est généralement la première étape du processus de prévention des pertes ou des détournements de données. Les technologies de détection DLP actuelles reposent sur des méthodes d'analyse de contenu multiples allant de l'identification de mots-clés, de dictionnaires et d'expressions ordinaires à la comparaison de documents partiels et à l'établissement de signatures (fingerprinting). Ces technologies peuvent être classées dans deux grandes catégories : Technologie de description - Protège les données confidentielles en recherchant des correspondances de mots-clés, d'expressions ou de modèles, en reconnaissant les types de fichiers, ainsi que par d'autres techniques de détection de signature. Technologie de signature - Opère en recherchant des correspondances exactes de fichiers entiers ou partiels. Les données à protéger sont d'abord collectées dans différents formats de fichiers tels que Microsoft Word, Excel® et PDF. Elles sont ensuite marquées (via une technologie de signature ou fingerprinting) à l'aide d'un algorithme de hachage, de façon à produire un index déployable dans le cadre d'une politique DLP. 1-"The Financial Management of Cyber Risk" (La gestion financière du cyber-risque), document publié par l'Internet Security Alliance (ISA) et l'American National Standards Institute (ANSI), 2010, p.10 Ce document est téléchargeable sur le site www.isalliance.org ou www.ansi.org 2-“A Strategy for Protecting Unstructured Data,” (Stratégie de protection des données non structurées) Adam Ely, InformationWeek.com, 10 sept. 2010 http://www.informationweek.com/news/business_intelligence/ information_mgt/showArticle.jhtml?articleID=227500068 1 L'apprentissage automatique établit de nouvelles normes en matière de prévention des pertes de données : description, signature, apprentissage Bien qu'efficaces pour protéger une bonne partie des informations cruciales d'une entreprise, les technologies de signature et de description ont leurs limites lorsqu'il s'agit de traiter des quantités toujours plus grandes de données non structurées ou des informations relevant de la propriété intellectuelle telles que les formules de produits, les rapports de vente ou de marketing, et le code source. En effet, la collecte de toutes les données à protéger et à marquer peut s'avérer un processus particulièrement lourd pour les entreprises dotées de ressources limitées, notamment quand ces données sont très dispersées. Par conséquent, la technique de signature est surtout utile pour les sources de données hautement spécifiques et centralisées. Dans le cas de données textuelles non structurées, on utilise généralement des listes de mots-clés pour rechercher les données sensibles. Cette approche prend cependant beaucoup de temps car, pour plus de précision, il est nécessaire de générer et d'ajuster les listes de mots-clés en permanence. Une nouvelle façon de rechercher et de protéger les données : Vector Machine Learning Une technologie de détection DLP d'un genre nouveau vient d'apparaître sur le marché, dont la caractéristique est de permettre aux entreprises d'employer des logiciels qui apprennent à détecter quelles catégories de données confidentielles ont besoin d'être protégées. Cette approche améliore continuellement la précision et la fiabilité de la recherche d'informations sensibles grâce à un processus de formation. Appliquant le concept d'apprentissage automatique aux techniques DLP, la technologie Vector Machine Learning (VML) vous aide à protéger rapidement et efficacement les données IP et les informations confidentielles parmi le flot toujours croissant des données non structurées. Bien que le concept d'apprentissage automatique soit employé depuis des dizaines d'années à toute sortes de fins (des moteurs antispam aux algorithmes de traduction de Google™), il n'avait encore jamais été appliqué à l'analyse des contenus DLP. En tant que technologie de détection DLP, VML apprend à reconnaître les informations sensibles qui doivent être protégées en appliquant des algorithmes à un ensemble d'exemples de documents donné. Comment opère la technologie Vector Machine Learning La figure 1 montre le processus VML par lequel des exemples positifs et négatifs de données sensibles sont fournis durant l'étape de "formation". Durant cette étape, des caractéristiques sont extraites afin d'élaborer un profil statistique qui servira ensuite à classer les données textuelles non structurées à protéger. 2 L'apprentissage automatique établit de nouvelles normes en matière de prévention des pertes de données : description, signature, apprentissage Le processus de formation définit la catégorie de données à protéger par le biais des exemples de documents. Ces données comprennent des exemples positifs de données à protéger (propriété intellectuelle, informations relatives aux fusions/acquisitions, etc.) ainsi que des exemples négatifs de données à ignorer. Par exemple, les exemples positifs peuvent être des documents contenant du code source propriétaire et les exemples négatifs, un projet open source téléchargé sur Internet. Les deux ensembles de données de formation sont nécessaires. Ils permettent en effet d'extraire les caractéristiques clés constituant le profil VML qui optimisera la précision durant l'étape de détection. Le processus de mise en oeuvre d'une politique Vector Machine Learning est très simple. L'utilisateur crée un profil VML en chargeant des exemples de documents positifs et négatifs. Le moteur VML procède à la formation en utilisant les exemples de documents et génère un modèle statistique, ou profil, qui est déployé une fois que l'utilisateur a vérifié et accepté la formation. Durant la phase de détection, le profil VML est employé dans le cadre de la politique pour classer tout document ou message inconnu. Si les données sont semblables aux exemples de documents positifs, un "incident" est généré. Pendant la détection, le profil VML affecte une "note de similitude" au document ou message inconnu dans le cadre du classement. Une note de similitude de 10 indique que les données examinées sont exactement semblables aux exemples de documents fournis durant la formation. Une note de 0 indique que les données examinées n'ont rien à voir avec celles de ces exemples. Chaque fois que des faux positifs sont générés, ils viennent alimenter le groupe de formation, ce qui permet d'ajuster le profil et d'accroître la précision au fil du temps. Une grande entreprise de matériel informatique utilisant la technologie VML a notamment constaté qu'une seule itération d'apprentissage avait permis (en alimentant le groupe de formation 3 L'apprentissage automatique établit de nouvelles normes en matière de prévention des pertes de données : description, signature, apprentissage négatif en faux positifs) de réduire le taux de faux positif de 4 %, un taux de précision comparable à celui obtenu avec les technologies de signature. Mise en pratique de la technologie Vector Maching Learning La figure 2 contient plusieurs études de cas montrant les avantages de la technologie VML dans la détection des informations sensibles parmi des données non structurées. Il convient de noter que le "point fort" de la technologie VML est sa capacité à protéger efficacement des données qui sont habituellement difficiles d'accès avec la technologie de signature ou des informations difficilement identifiables dans un ensemble de mots-clés ou de phrases. Par exemple, la technologie VML est idéale pour protéger des données telles que le code source "propriétaire" d'un produit, les modèles d'échange d'un prestataire de services financiers ou les algorithmes actuariels des compagnies d'assurance. Dans le cas du code source, la technologie VML permet, par exemple, de couvrir un programme entièrement nouveau que vient d'écrire un développeur sur son ordinateur portable (et donc jamais vu auparavant). Elle garantit en outre que ce nouveau code sera pris en charge lors de l'application de la politique DLP. VML est également utile pour la détection de données sensibles telles que les rapports de vente qui changent fréquemment et existent dans plusieurs format (documents Excel et Word, messages électroniques, etc.). En collectant des exemples de ces types de rapports à des fins de formation, VML peut créer un profil capable d'identifier et de mettre en application des politiques de protection couvrant la distribution hebdomadaire de nouveaux rapports de vente, quel que soit leur format. Protection de type "Zero-Day" automatisée La technologie Vector Machine Learning possède des avantages spécifiques qui viennent compléter ceux des technologies de description et de signature existantes. Elle permet ainsi aux entreprises de mieux protéger leurs informations cruciales, en particulier les données non structurées dispersées dans d'innombrables emplacements. 4 L'apprentissage automatique établit de nouvelles normes en matière de prévention des pertes de données : description, signature, apprentissage Des processus automatiques simplifient la configuration et la gestion – En automatisant le processus de définition et d'ajustement des politiques, VML réduit sensiblement le nombre d'heures-hommes nécessaires pour configurer et gérer les technologies DLP. La formation ne nécessitant que des exemples de données à protéger, la configuration peut être effectuée rapidement et efficacement. De nombreuses tâches, telles que celles qui consistent à gérer les listes de mots clés ou à tenter de collecter toutes les données à des fins de signature sont éliminées. De plus, le nombre de faux positifs et d'ajustements nécessaires diminuent à mesure que la technologie apprend à reconnaître les informations ciblées et gagne en précision. L'apprentissage dynamique améliore la précision et la rapidité de la protection. Tout comme les logiciels antivirus, la technologie Vector Machine Learning assure la protection de type "Zero-day" des données confidentielles avec la même précision que les technologies de signature. Les facultés d'apprentissage dynamique de VML permettent de reconnaître des informations récemment mises à jour ou encore jamais vues plus facilement et plus précisément, et de couvrir ainsi les données sensibles non encore créées. Face à la prolifération de plus en plus rapide des données non structurées, la technologie VML complète l'analyse de contenu rendue possible par les technologies de signature et de description, optimisant ainsi l'application des politiques DLP. Le nouveau modèle de détection et de prévention des pertes de données : description, signature et apprentissage L'avènement de la technologie Vector Machine Learning marque l'apparition d'un nouveau type d'analyse de contenu qui vient compléter et améliorer les technologies DLP existantes visant à protéger les informations privées ou confidentielles. Comme le montre la figure 3, la combinaison de VML avec les technologies de description et de signature existantes procure un nouveau modèle apte à améliorer l'efficacité et les performances des produits et programmes DLP. Les entreprises qui ont à gérer des quantités croissantes de données non structurées et d'informations confidentielles hautement dispersées sont donc fortement encouragées à découvrir et à évaluer la technologie VML. 5 L'apprentissage automatique établit de nouvelles normes en matière de prévention des pertes de données : description, signature, apprentissage Pour en savoir plus sur la technologie Vector Machine Learning Pour plus de détails sur la façon dont votre entreprise peut mettre à profit la technologie Vector Machine Learning pour optimiser ses investissements présents et futurs dans des programmes et technologies DLP, rendez-vous sur le site http://www.symantec.com/fr/fr/business/products/family.jsp?familyid=data-loss-prevention ou contactez votre interlocuteur commercial Symantec local. Contactez un spécialiste produit Pour connaître les coordonnées des bureaux dans un pays en particulier, visitez notre site Web à l'adresse suivante : www.symantec.fr 6 A propos de Symantec Symantec est un leader mondial des solutions de sécurité, de stockage et de gestion des systèmes destinées à aider les particuliers et les entreprises à sécuriser et gérer leur environnement informatique. Nos logiciels et services permettent d'assurer une protection plus complète et plus efficace contre davantage de risques à différents points et d'instaurer ainsi la confiance, quel que soit l'endroit où les informations sont utilisées ou stockées. La société Symantec, dont le siège social est basé à Mountain View en Californie, est présente dans 40 pays. Des informations supplémentaires sont disponibles à l'adresse www.symantec.fr. Pour connaître les Symantec France coordonnées des bureaux 17 avenue de l'Arche dans un pays spécifique, 92671 Courbevoie Cedex consultez notre site Web. 01 41 38 57 00 www.symantec.com/fr Symantec aide les entreprises à sécuriser et à gérer leur environnement informatique au moyen de solutions de conformité informatique, de gestion de la recherche électronique et de la conservation, de prévention des pertes de données et de sécurité de la messagerie. Copyright © 2010 Symantec Corporation. Tous droits réservés. Symantec et le logo Symantec sont des marques commerciales ou des marques déposées de Symantec Corporation ou de ses filiales aux EtatsUnis et dans d'autres pays. Google est une marque déposée de Google et de ses filiales aux Etats-Unis et dans d'autres pays. Microsoft Word et Microsoft Excel sont des marques déposées de Microsoft et de ses filiales aux Etats-Unis et dans d’autres pays. Les autres noms peuvent être des marques commerciales de leurs détenteurs respectifs. 12/2010 21158455