Comment retrouver votre propriété intellectuelle dans un océan de données non structurées
Beaucoup d'entreprises actuelles ont recours à des programmes de prévention des pertes de données (DLP, data loss
prevention) pour identifier leurs informations sensibles et créer des politiques visant à contrôler les emplacements où les
données doivent ou ne doivent pas être transférées, ainsi que leur mode de transfert. Cependant, dans un monde où les
menaces en ligne continuent de croître presque quotidiennement, les produits et programmes DLP sont sans cesse
confrontés à de nouveaux défis, en particulier de la part des cybercriminels qui visent votre propriété intellectuelle.Selon
un rapport du gouvernement fédéral des Etats-Unis daté de mai 2009, les pertes de propriété intellectuelle résultant
d'attaques de cybercriminels visant des entreprises américaines ont augmenté de plus d'1 milliard de dollars dans la
période de 2008 à 2009. 1
C'est pourquoi il est plus essentiel que jamais de protéger la propriété intellectuelle et les données sensibles présentes
dans des documents tels que les fichiers Microsoft® Word™, les feuilles de calcul et les fichiers d'image. Cependant,
localiser toutes ces données dans l'ensemble de l'entreprise est devenu beaucoup plus difficile. En effet, les informations
sensibles sont souvent noyées dans un océan de données non structurées qui prolifèrent d'un bout à l'autre de l'entreprise
dans d'innombrables emplacements et périphériques.
Comme une revue professionnelle le soulignait récemment, "Le principal défi auquel est confronté l'informatique
d'aujourd'hui est une croissance exponentielle des données non structurées (correspondant, selon IDC, à un taux annuel
composé de 61 %, soit trois fois le taux de croissance des données structurées).Ces données sont en outre éparpillées
dans toute l'entreprise : dans des dossiers de serveurs de fichiers, sur des portables ou sur des clés USB." 2
Technologies actuelles de détection et de prévention de perte des données : description et
signature
La protection des informations sensibles par un contrôle et une analyse approfondis des contenus à l'aide de la
technologie DLP est généralement la première étape du processus de prévention des pertes ou des détournements de
données. Les technologies de détection DLP actuelles reposent sur des méthodes d'analyse de contenu multiples allant de
l'identification de mots-clés, de dictionnaires et d'expressions ordinaires à la comparaison de documents partiels et à
l'établissement de signatures (fingerprinting). Ces technologies peuvent être classées dans deux grandes catégories :
Technologie de description - Protège les données confidentielles en recherchant des correspondances de mots-clés,
d'expressions ou de modèles, en reconnaissant les types de fichiers, ainsi que par d'autres techniques de détection de
signature.
Technologie de signature - Opère en recherchant des correspondances exactes de fichiers entiers ou partiels. Les
données à protéger sont d'abord collectées dans différents formats de fichiers tels que Microsoft Word, Excel® et PDF.
Elles sont ensuite marquées (via une technologie de signature ou fingerprinting) à l'aide d'un algorithme de hachage, de
façon à produire un index déployable dans le cadre d'une politique DLP.
1-"The Financial Management of Cyber Risk" (La gestion financière du cyber-risque), document publié par l'Internet Security Alliance (ISA) et l'American National Standards Institute (ANSI), 2010, p.10 Ce document est
téléchargeable sur le site www.isalliance.org ou www.ansi.org
2-“A Strategy for Protecting Unstructured Data,” (Stratégie de protection des données non structurées) Adam Ely, InformationWeek.com, 10 sept. 2010 http://www.informationweek.com/news/business_intelligence/
information_mgt/showArticle.jhtml?articleID=227500068
L'apprentissage automatique établit de nouvelles normes en matière de prévention des pertes de
données : description, signature, apprentissage
1