STIC et risques Des données à la connaissance pour la gestion des risques 2007-2008 Marine Campedel www.tsi.enst.fr/~campedel Quid STIC ? Signification de l’acronyme ? 2007 - 2008 Campedel Système de Traitement des Infractions Constatées : grosse BD fichiers policiers Section technique d'investigation criminelle Sciences et Technologies de l’Information et de la Communication TIC pour l’Education = TICE nouvelles TIC = nTIC Page 2 Quid STIC ? « Les STIC désignent l'ensemble des sciences et technologies concourant à l'étude, la conception et l'implémentation de modèles et systèmes opérationnels d'information et de communication [cf interstices.info] Sciences : maths, physique, chimie, de la vie, humaines, … Technologies : mécanique, électricité, (micro)électronique, nanotechnologies, … Conception / Implémentation / Systèmes opérationnels 2007 - 2008 Campedel Page 3 Quid STIC ? Les STIC sont nécessairement pluridisciplinaires, car elles portent des enjeux : théoriques (logique, rôle et place de l'homme dans l'univers), industriels (concurrence internationale, situations de monopole), avec des secteurs économiques nouveaux (constructeurs, éditeurs de logiciels, opérateurs de réseaux, consultants, SSII), sociaux et culturels (emploi, éducation, information, formation), moraux (pornographie et violence, avenir de l'homme dans sa maîtrise des machines, intégration des « prothèses »), idéologiques et politiques (libertés, « fracture numérique », pouvoirs). 2007 - 2008 Campedel Page 4 Notion de risque 1/2 Qu’appelle-t-on le risque ? Qu’est-ce qu’une situation à risque ? Exemples ? A quoi pourraient servir les STIC vis-à-vis du risque ? 2007 - 2008 Campedel Page 5 Notion de risque 2/2 Détecter une situation à risque Mesurer le risque d’une situation Calculabilité ? Fiabilité de la mesure ? Reproductibilité dans une situation similaire ? Gérer une situation à risque Récupérer/analyser les données de la situation Communiquer sur l’évolution et les décisions Des risques particuliers : la santé, la finance, la nature, … 2007 - 2008 Campedel Page 6 STIC et risques (plan du cours) Histoire des STICs du signal à l’information de l’information à la connaissance Des outils variés visibilité, fouille, classification, modélisation, prédiction, transmission, … l’ingénierie des connaissances 2007 - 2008 Campedel Page 7 Du signal à l’information http://www.tsi.enst.fr/~campedel/Contribution/Signaux_Campedel_2005.pdf « Signal » Produit par la nature, l’homme, la technologie Représenté par des réels/complexes, caractéristiques déterministes/aléatoires, analogiques/numériques Dimension : spatial, temporel, … 2007 - 2008 Campedel Page 8 Du signal à l’information Traitement du signal : créer, analyser, modifier, classifier, reconnaître les signaux Activité ancienne : cryptologie en 480 av JC, imprimerie de Gutenberg en 1440, … Mais : de nouvelles technologies créent de nouveaux signaux qui suscitent la création de nouveaux traitements. Radar EISCAT Données ionosphérisques 2007 - 2008 Campedel De l’onde à l’image Page 9 Du signal à l’information « Information » ? 20ème siècle : « rassemble » savants (physiciens, mathématiciens, biologistes, …) et ingénieurs Information mesurable : Fisher, Shannon Début d’une nouvelle ère : Le Zéro et le Un - Histoire de la notion scientifique d'information J. Segal, ISBN:2-84797046-0, 2003, Syllepse. 2007 - 2008 Campedel Et pour vous ??? Page 10 L’information de Fisher et Shannon Approche d’un biologiste statisticien R.A. Fisher (1890-1962), 1920 moins une observation est probable, plus son observation est porteuse d'information Outil : variance du max de vraisemblance Approche d’ingénieurs en télécommunications C. Shannon (1916-2001) et W. Weaver, 1948 Outil : entropie = mesure de la quantité d’information 2007 - 2008 Campedel Page 11 Du signal à l’information Signal = support de l’information Numérisation Principe de l’échantillonnage : Nyquist (1889-1976), 1928 Accélération des techno calculatoires et des capacités de stockage : 1936, Turing 1960,1er ordinateur 1947, transistor 2007 - 2008 Campedel 1982, internet 1970, SGBD 1995 : DVD 1990 : CD Au service du grand public : donner accès au plus grand nombre Page 12 Masses de données Chiffres clés Taille du web ? • > 2milliards de pages indexées par Google Archives INA : 100 000h d’émissions TV et radio à télécharger Imagerie satellitaire : 1 image SPOT5 12000x12000x8 bits … 2007 - 2008 Campedel Page 13 Masse de données Problèmes rencontrés Stockage et gestion Gestion manuelle impossible Comment accéder au contenu informationnel de ces données ? Comment décrire ces données ? Les qualifier ? Comment les exploiter ? Dans quel but ? 2007 - 2008 Campedel Page 14 Masse de données Information explicite Information implicite 2007 - 2008 Campedel Page 15 Masse de données ??? 2007 - 2008 Campedel Page 16 Masse de données Pour atteindre l’iceberg entier, que faut-il ? de la curiosité, une problématique, des outils d’observation, des outils d’analyse, des connaissances annexes … 2007 - 2008 Campedel Page 17 Information et connaissance Connaissance = information structurée, intégrée, mise en application. Théorie de la connaissance (philosophie) Que pouvons nous connaître ? Méthode qui conduit à la connaissance ? 2007 - 2008 Campedel Origine de la connaissance ? L'arbre de la connaisance © Claude Portais www.memo.fr Page 18 STIC et risques (plan du cours) Histoire des STICs du signal à l’information de l’information à la connaissance Des outils variés visibilité, fouille, classification, modélisation, prédiction, transmission, … l’ingénierie des connaissances 2007 - 2008 Campedel Page 19 Les outils associés aux TIC Accès aux données Fouille des données Pertinence / bruit Classification Visualisation, interfaces Trier, organiser pour retrouver (notion de similarité) Modélisation 2007 - 2008 Campedel Représentation compacte Page 20 Les outils des TIC Prédiction Problème de fiabilité Transmission Compromis redondance et débit Qualité de la transmission 2007 - 2008 Campedel Page 21 Accès aux données Un outil d’accès privilégié : les moteurs de recherche Google, Exalead, … ??? Présentation du résultat de la requête Traitement de la requête 2007 - 2008 Campedel Page 22 Accès aux données ou des méta-moteurs… ??? interfaces Indicateurs, résumés, … Moteurs multiples 2007 - 2008 Campedel Page 23 Accès aux données : un exemple La télésurveillance Ma maison est-elle en sécurité ? Réseau de caméras Difficulté : la réponse doit être simple et juste Stockage et traitement des données (flux vidéo) Difficulté : quels sont les bons indicateurs ? Visualisation des indicateurs (alarmes) par un opérateur 2007 - 2008 Campedel Page 24 Accès aux données : un autre exemple Centre de supervision de télécommunications de Blagnac. © Yves Guillamon / France Télécom Difficulté : multiplicité des sources d’information 2007 - 2008 Campedel Page 25 Accès aux données : interfaces Plus proches des sens humains Études sensorielles : psycho-physique, ergonomie, … Réalité augmentée, virtuelle http://www.infres.enst.fr/~elc/ Des interfaces mobiles 2007 - 2008 Campedel Accès partout et tout le temps Source http://www.journaldunet.com/cc/05_ mobile/mobile_marche_mde.shtml Monde 03/09/2007 Page 26 Fouille des données « Data mining » Qu’y-a-t-il d’intéressant dans cette base ? Filtrage de l’information par un critère de « pertinence » Pour qui ? Moyens Analyse des données pour les décrire (classification, modélisation) Définition d’un critère de pertinence Interaction avec l’utilisateur 2007 - 2008 Campedel Page 27 Fouille : bruit et silence Ensemble des données à fouiller Ensemble des données pertinentes Ensemble des données récupérées BRUIT SILENCE 2007 - 2008 Campedel Page 28 Fouille : problème d’une information noyée Un gros risque : le SPAM ! Qu’est-ce ? Pourquoi l’éviter ? Comment l’éviter ? Des infos complémentaires sur : Rapport CNIL sur le Spam Autre risque : le pouvoir trop important des media ! 2007 - 2008 Campedel Votre avis ? Page 29 Fouille : détection de nouveautés Méthodologie : Modélisation (statistique) de la normalité puis détection des individus qui ne suivent pas le modèle Méthodes a contrario Applications variées : 2007 - 2008 Campedel « alarmes » sur une ligne de production dont le comportement est automatiquement analysé comme anormal Vidéo-surveillance : détection de comportements anormaux … Page 30 NB : méthodes a contrario Méthodes a contrario « Depuis quelques années sont apparues en analyse d’images des méthodes statistiques inspirées de la perception visuelle humaine, qui permettent de réaliser la détection de structures géométriques (contours, alignements, taches, etc.) en contrôlant rigoureusement le nombre de fausses alarmes. Ces structures sont caractérisées comme des arrangements hautement improbables dans un modèle dit ``naïf’’ (typiquement un modèle de bruit), et sont donc détectées par la contradiction de ce modèle naïf, et non par leur adéquation à un modèle a priori, souvent difficile à définir » Lionel Moisan, SMAI 2007 Références bibliographiques : Cours de Julie Delon (CNRS) Article GRETSI, Robin et al. 2007 - 2008 Campedel Page 31 Fouille des données Qui fouille ? « boucle de pertinence » Le système de recherche s’adapte à la requête de l’utilisateur (et non l’inverse) Usage itératif de méthodes d’apprentissage à partir d’exemples étiquetés par l’utilisateur Stratégies de collaboration entre l’homme et la machine • Quels résultats présenter en vue d’un étiquetage ? Comme résultat final ? • Cohérence des actions humaines ? 2007 - 2008 Campedel Page 32 Fouille des données Actions de l’utilisateur répertoriées (traces) Intérêt d’une information mesurée par la quantité d’accès à cette information (pageRank de Google) Élaboration de « profils » utilisateurs Exploitation commerciale ! 2007 - 2008 Campedel Page 33 Fouille de données : un exemple Une catastrophe naturelle Objectif : aide à l’interprétation de la scène et à la mise en œuvre des secours Sources de données sur la situation : textes de presse, témoignages, images satellitaires, signaux de capteurs, … Connaissances : des experts humains, description du terrain, SIG, encyclopédie spécialisée … Des outils : visualisation, navigation dans les données + outils de traitement pour aider la fouille + outils de cartographie 2007 - 2008 Campedel Page 34 Fouille de données : un exemple Image Spot 5 de l’île de Katchall, Iles Nicobar 10 juillet 2004 28 décembre 2004 Charte sur les catastrophes naturelles Tsunami dec. 2004 Spot Image 2007 - 2008 Campedel Page 35 Classification Structuration de l’information extraite Supervisée / non supervisée « pattern recognition » Les classes d’intérêt sont ou non connues Batterie d’outils automatiques Discrimination linéaire, non linéaire Clusterisation 2007 - 2008 Campedel Page 36 Classification Discrimination Outils classiques : Analyse Discriminante de Fisher, les réseaux de neurones, les Machines à Vecteurs de Support (SVM), … 2007 - 2008 Campedel Deux classes ou plus Page 37 Classification Clusterisation : regrouper les données similaires Exemple : algorithme des K-Moyennes Critère mathématique Résolution itérative Hiérarchique Floue 2007 - 2008 Campedel Page 38 Classification Clusterisation : regrouper les données similaires 2007 - 2008 Campedel Pb du choix du critère de regroupement ! Page 39 Classification La notion de similarité est-elle subjective ? 2007 - 2008 Campedel Page 40 Classification Deux données sont comparées par l’intermédiaire des caractéristiques extraites (attributs) 2007 - 2008 Campedel Sim( Im1, Im2 ) = Sim( f(Im1), f(Im2) ), avec f la fonction d’extraction des caractéristiques Mesures de similarités, distances (A) s( x, x ) = s( y, y ) > s( x, y ) (B) s( x, y ) = s( y, x ) (C) d( x, x) = 0 (D) d(x,y) = 0 x = y (E) d(x, y) <= d(x,z) + d(z,y) (F) d(x,y) <= max( d(x,z), d(z,y) ) similarité dissimilarité distance Ultra-métrique Page 41 Classification Attributs numériques symboliques graphes Quels sont les « bons attributs » ? Méthodes de sélection automatiques Risque lié au compromis entre le coût en mémoire et le potentiel informatif des attributs conservés 2007 - 2008 Campedel Page 42 Modélisation « La modélisation est la conception d'un modèle. Le terme est employé dans plusieurs domaines : […] permet d'analyser des phénomènes réels et de prévoir des résultats à partir de l'application d'une ou plusieurs théories à un niveau d'approximation donné […] » selon wikipedia Modèles ? statistiques, numériques (analytiques), … simulations Modèles que vous connaissez ? Dans quels contextes ? 2007 - 2008 Campedel Page 43 Exemple simple Régression linéaire . Modèle : Y = a·X + b Technique des moindres carrés = minimiser l’erreur : Qualité du modèle ? 2007 - 2008 Campedel Mesure d’erreur entre les données réelles et les données prédites par le modèle Page 44 Prédiction : les marchés financiers ! Validité temporelle à court terme, « Tendance » Analyse technique Exemple http://www.abcbourse.com/Apprendre/11_lecons_at_intro.html Situation à risque : votre avis ? s’il existait un modèle génial permettant de prédire le marché, celui-ci s’effondrerait ! 2007 - 2008 Campedel Page 45 Communications - Transmission Développement rapide des moyens de communication de masse Internet (années 80) Les caméras (webcam), visioconférence Antennes, fibre optique, … Sans fil … 2007 - 2008 Campedel Page 46 Les risques en transmission Problème physique Dû au support physique (canal de transmission) Atténuation/perte du signal Echo http://www.tsi.enst.fr/~prado/annecho/principe.html Problème de la qualité du message récupéré Exemple codage audio très bas débit (pb du bruit) Codage de parole à très bas débit (inférieurs à 600 bits/s). http://www.esiee.fr/~baudoing/recherche.html Original 2007 - 2008 Campedel codé 15dB métro codé Page 47 De l’information à la connaissance 2007 - 2008 Campedel Constat 1 : une grande masse d’information circule Constat 2 : ce qui est information pour les uns peut être bruit pour les autres Constat 3 : l’information accessible est parfois contradictoire (pb de fiabilité, contrôle) Page 48 Exploitabilité des informations En lien avec utilité, fiabilité Connaissance = information exploitée, organisée et codée informatiquement et savoir = ensemble de connaissances Représentée par Des concepts (modèles, classes, …) Des relations entre les concepts (hiérarchiques, autres ?) Outils de gestion des connaissances Bases de données Ontologies 2007 - 2008 Campedel Page 49 Exemple d’ontologie 2007 - 2008 Campedel Page 50 Conceptualisation Les concepts sont issus d’un consensus sur la représentation choisie On observe des individus (éléments d’information) qui se retrouve souvent dans le même contexte Difficile à obtenir de façon automatique, manuelle ? Outils de fouille, classification de textes pour avoir les concepts sémantiques clés d’un domaine et des relations (patrons) Supervision humaine pour sélection, vérification 2007 - 2008 Campedel Page 51 Conceptualisation d’une situation à risque ? Acteurs ? Données capteurs ? Sources d’informations ? Victimes ? Aides possibles ? … et relations ? Images satellitaires Outils de traitement d’images SIG tsunami Experts variés : physiciens, géologues, géographes, sociologues, psychologues, traiteurs d’images, risque, … 2007 - 2008 Campedel Gouvernement du pays victimes Organisations humanitaires, … Page 52 Evolution dans le temps Est-il utile de conceptualiser ? Non car chaque catastrophe est unique dans l’espace et le temps Oui car … Importance de la mémoire Information du passé intégrée Conceptualiser permet de raisonner avec un niveau d’abstraction supérieur mise en place de protocoles (« principe de précaution ») 2007 - 2008 Campedel Page 53 Conclusion Cours « pub » pour diverses technologies… il en existe bien d’autres ! Idée 1 : beaucoup d’information et d’outils de traitement de cette information sont disponibles autour de nous (en particulier pour détecter, gérer puis analyser une situation à risque) Idée 2 : faire qu’une personne donnée parvienne a récupérer une information utile pour lui rapidement est encore un challenge ! Idée 3 : nécessité de structurer l’information pour qu’elle devienne connaissance et puisse être exploitée. 2007 - 2008 Campedel Page 54