STIC et risques

publicité
STIC et risques
Des données à la connaissance
pour la gestion des risques
2007-2008
Marine Campedel
www.tsi.enst.fr/~campedel
Quid STIC ?
Signification de l’acronyme ?
2007 - 2008
Campedel
Système de Traitement des Infractions Constatées : grosse
BD fichiers policiers
Section technique d'investigation criminelle
Sciences et Technologies de l’Information et de la
Communication
TIC pour l’Education = TICE
nouvelles TIC = nTIC
Page 2
Quid STIC ?
« Les STIC désignent l'ensemble des sciences et
technologies concourant à l'étude, la conception et
l'implémentation de modèles et systèmes opérationnels
d'information et de communication [cf interstices.info]
Sciences : maths, physique, chimie, de la vie, humaines, …
Technologies : mécanique, électricité, (micro)électronique,
nanotechnologies, …
Conception / Implémentation / Systèmes opérationnels
2007 - 2008
Campedel
Page 3
Quid STIC ?
Les STIC sont nécessairement pluridisciplinaires, car elles
portent des enjeux :
théoriques (logique, rôle et place de l'homme dans l'univers),
industriels (concurrence internationale, situations de monopole), avec des
secteurs économiques nouveaux (constructeurs, éditeurs de logiciels,
opérateurs de réseaux, consultants, SSII),
sociaux et culturels (emploi, éducation, information, formation),
moraux (pornographie et violence, avenir de l'homme dans sa maîtrise
des machines, intégration des « prothèses »),
idéologiques et politiques (libertés, « fracture numérique », pouvoirs).
2007 - 2008
Campedel
Page 4
Notion de risque 1/2
Qu’appelle-t-on le risque ?
Qu’est-ce qu’une situation à risque ? Exemples ?
A quoi pourraient servir les STIC vis-à-vis du risque ?
2007 - 2008
Campedel
Page 5
Notion de risque 2/2
Détecter une situation à risque
Mesurer le risque d’une situation
Calculabilité ?
Fiabilité de la mesure ?
Reproductibilité dans une situation similaire ?
Gérer une situation à risque
Récupérer/analyser les données de la situation
Communiquer sur l’évolution et les décisions
Des risques particuliers : la santé, la finance, la nature, …
2007 - 2008
Campedel
Page 6
STIC et risques (plan du cours)
Histoire des STICs
du signal à l’information
de l’information à la connaissance
Des outils variés
visibilité, fouille, classification, modélisation, prédiction,
transmission, …
l’ingénierie des connaissances
2007 - 2008
Campedel
Page 7
Du signal à l’information
http://www.tsi.enst.fr/~campedel/Contribution/Signaux_Campedel_2005.pdf
« Signal »
Produit par la nature, l’homme, la technologie
Représenté par des réels/complexes, caractéristiques
déterministes/aléatoires, analogiques/numériques
Dimension : spatial, temporel, …
2007 - 2008
Campedel
Page 8
Du signal à l’information
Traitement du signal : créer, analyser, modifier, classifier,
reconnaître les signaux
Activité ancienne : cryptologie en 480 av JC, imprimerie de
Gutenberg en 1440, …
Mais : de nouvelles technologies créent de nouveaux
signaux qui suscitent la création de nouveaux traitements.
Radar EISCAT
Données ionosphérisques
2007 - 2008
Campedel
De l’onde à l’image
Page 9
Du signal à l’information
« Information » ?
20ème siècle : « rassemble » savants (physiciens,
mathématiciens, biologistes, …) et ingénieurs
Information mesurable : Fisher, Shannon
Début d’une nouvelle ère :
Le Zéro et le Un - Histoire de la notion scientifique d'information
J. Segal, ISBN:2-84797046-0, 2003, Syllepse.
2007 - 2008
Campedel
Et pour vous ???
Page 10
L’information de Fisher et Shannon
Approche d’un biologiste statisticien
R.A. Fisher (1890-1962), 1920
moins une observation est probable, plus son observation
est porteuse d'information
Outil : variance du max de vraisemblance
Approche d’ingénieurs en télécommunications
C. Shannon (1916-2001) et W. Weaver, 1948
Outil : entropie = mesure de la quantité d’information
2007 - 2008
Campedel
Page 11
Du signal à l’information
Signal = support de l’information
Numérisation
Principe de l’échantillonnage : Nyquist (1889-1976), 1928
Accélération des techno calculatoires et des capacités de
stockage :
1936, Turing
1960,1er ordinateur
1947, transistor
2007 - 2008
Campedel
1982, internet
1970, SGBD
1995 : DVD
1990 : CD
Au service du grand public : donner accès au plus grand
nombre
Page 12
Masses de données
Chiffres clés
Taille du web ?
• > 2milliards de pages indexées par Google
Archives INA : 100 000h d’émissions TV et radio à
télécharger
Imagerie satellitaire : 1 image SPOT5 12000x12000x8 bits
…
2007 - 2008
Campedel
Page 13
Masse de données
Problèmes rencontrés
Stockage et gestion
Gestion manuelle impossible
Comment accéder au contenu informationnel de ces
données ?
Comment décrire ces données ? Les qualifier ?
Comment les exploiter ?
Dans quel but ?
2007 - 2008
Campedel
Page 14
Masse de données
Information explicite
Information implicite
2007 - 2008
Campedel
Page 15
Masse de données
???
2007 - 2008
Campedel
Page 16
Masse de données
Pour atteindre l’iceberg
entier, que faut-il ?
de la curiosité,
une problématique,
des outils d’observation,
des outils d’analyse,
des connaissances
annexes
…
2007 - 2008
Campedel
Page 17
Information et connaissance
Connaissance = information structurée, intégrée, mise en
application.
Théorie de la connaissance (philosophie)
Que pouvons nous connaître ?
Méthode qui conduit à la connaissance ?
2007 - 2008
Campedel
Origine de la connaissance ?
L'arbre de la connaisance
© Claude Portais
www.memo.fr
Page 18
STIC et risques (plan du cours)
Histoire des STICs
du signal à l’information
de l’information à la connaissance
Des outils variés
visibilité, fouille, classification, modélisation, prédiction,
transmission, …
l’ingénierie des connaissances
2007 - 2008
Campedel
Page 19
Les outils associés aux TIC
Accès aux données
Fouille des données
Pertinence / bruit
Classification
Visualisation, interfaces
Trier, organiser pour retrouver (notion de similarité)
Modélisation
2007 - 2008
Campedel
Représentation compacte
Page 20
Les outils des TIC
Prédiction
Problème de fiabilité
Transmission
Compromis redondance et débit
Qualité de la transmission
2007 - 2008
Campedel
Page 21
Accès aux données
Un outil d’accès privilégié : les moteurs de recherche
Google, Exalead, …
???
Présentation du
résultat de la requête
Traitement de la requête
2007 - 2008
Campedel
Page 22
Accès aux données
ou des méta-moteurs…
???
interfaces
Indicateurs, résumés, …
Moteurs multiples
2007 - 2008
Campedel
Page 23
Accès aux données : un exemple
La télésurveillance
Ma maison
est-elle en
sécurité ?
Réseau de caméras
Difficulté : la réponse
doit être simple et juste
Stockage et traitement
des données (flux vidéo)
Difficulté : quels sont les
bons indicateurs ?
Visualisation des indicateurs (alarmes)
par un opérateur
2007 - 2008
Campedel
Page 24
Accès aux données : un autre exemple
Centre de supervision de télécommunications de Blagnac.
© Yves Guillamon / France Télécom
Difficulté : multiplicité des
sources d’information
2007 - 2008
Campedel
Page 25
Accès aux données : interfaces
Plus proches des sens humains
Études sensorielles : psycho-physique, ergonomie, …
Réalité augmentée, virtuelle
http://www.infres.enst.fr/~elc/
Des interfaces mobiles
2007 - 2008
Campedel
Accès partout et tout le temps
Source
http://www.journaldunet.com/cc/05_
mobile/mobile_marche_mde.shtml
Monde 03/09/2007
Page 26
Fouille des données
« Data mining »
Qu’y-a-t-il d’intéressant dans cette base ?
Filtrage de l’information par un critère de « pertinence »
Pour qui ?
Moyens
Analyse des données pour les décrire (classification,
modélisation)
Définition d’un critère de pertinence
Interaction avec l’utilisateur
2007 - 2008
Campedel
Page 27
Fouille : bruit et silence
Ensemble des
données à fouiller
Ensemble
des données
pertinentes
Ensemble des
données
récupérées
BRUIT
SILENCE
2007 - 2008
Campedel
Page 28
Fouille : problème d’une information noyée
Un gros risque : le SPAM !
Qu’est-ce ?
Pourquoi l’éviter ?
Comment l’éviter ?
Des infos complémentaires sur : Rapport CNIL sur le Spam
Autre risque : le pouvoir trop important des media !
2007 - 2008
Campedel
Votre avis ?
Page 29
Fouille : détection de nouveautés
Méthodologie :
Modélisation (statistique) de la normalité puis détection des
individus qui ne suivent pas le modèle
Méthodes a contrario
Applications variées :
2007 - 2008
Campedel
« alarmes » sur une ligne de production dont le
comportement est automatiquement analysé comme
anormal
Vidéo-surveillance : détection de comportements anormaux
…
Page 30
NB : méthodes a contrario
Méthodes a contrario
« Depuis quelques années sont apparues en analyse d’images des méthodes statistiques inspirées de
la perception visuelle humaine, qui permettent de réaliser la détection de structures géométriques
(contours, alignements, taches, etc.) en contrôlant rigoureusement le nombre de fausses alarmes. Ces
structures sont caractérisées comme des arrangements hautement improbables dans un modèle dit
``naïf’’ (typiquement un modèle de bruit), et sont donc détectées par la contradiction de ce modèle
naïf, et non par leur adéquation à un modèle a priori, souvent difficile à définir »
Lionel Moisan, SMAI 2007
Références bibliographiques :
Cours de Julie Delon (CNRS)
Article GRETSI, Robin et al.
2007 - 2008
Campedel
Page 31
Fouille des données
Qui fouille ?
« boucle de pertinence »
Le système de recherche s’adapte à la requête de
l’utilisateur (et non l’inverse)
Usage itératif de méthodes d’apprentissage à partir
d’exemples étiquetés par l’utilisateur
Stratégies de collaboration entre l’homme et la machine
• Quels résultats présenter en vue d’un étiquetage ? Comme
résultat final ?
• Cohérence des actions humaines ?
2007 - 2008
Campedel
Page 32
Fouille des données
Actions de l’utilisateur répertoriées (traces)
Intérêt d’une information mesurée par la quantité d’accès à
cette information (pageRank de Google)
Élaboration de « profils » utilisateurs
Exploitation commerciale !
2007 - 2008
Campedel
Page 33
Fouille de données : un exemple
Une catastrophe naturelle
Objectif : aide à l’interprétation de la scène et à la mise en
œuvre des secours
Sources de données sur la situation : textes de presse,
témoignages, images satellitaires, signaux de capteurs, …
Connaissances : des experts humains, description du
terrain, SIG, encyclopédie spécialisée …
Des outils : visualisation, navigation dans les données +
outils de traitement pour aider la fouille + outils de
cartographie
2007 - 2008
Campedel
Page 34
Fouille de données : un exemple
Image Spot 5 de l’île de Katchall, Iles Nicobar
10 juillet 2004
28 décembre 2004
Charte sur les catastrophes naturelles
Tsunami dec. 2004 Spot Image
2007 - 2008
Campedel
Page 35
Classification
Structuration de l’information extraite
Supervisée / non supervisée
« pattern recognition »
Les classes d’intérêt sont ou non connues
Batterie d’outils automatiques
Discrimination linéaire, non linéaire
Clusterisation
2007 - 2008
Campedel
Page 36
Classification
Discrimination
Outils classiques : Analyse Discriminante de Fisher, les
réseaux de neurones, les Machines à Vecteurs de Support
(SVM), …
2007 - 2008
Campedel
Deux classes ou plus
Page 37
Classification
Clusterisation : regrouper les données similaires
Exemple : algorithme des K-Moyennes
Critère mathématique
Résolution itérative
Hiérarchique
Floue
2007 - 2008
Campedel
Page 38
Classification
Clusterisation : regrouper les données similaires
2007 - 2008
Campedel
Pb du choix du critère de regroupement !
Page 39
Classification
La notion de similarité est-elle subjective ?
2007 - 2008
Campedel
Page 40
Classification
Deux données sont comparées par l’intermédiaire des
caractéristiques extraites (attributs)
2007 - 2008
Campedel
Sim( Im1, Im2 ) = Sim( f(Im1), f(Im2) ), avec f la
fonction d’extraction des caractéristiques
Mesures de similarités, distances
(A) s( x, x ) = s( y, y ) > s( x, y )
(B) s( x, y ) = s( y, x )
(C) d( x, x) = 0
(D) d(x,y) = 0 x = y
(E) d(x, y) <= d(x,z) + d(z,y)
(F) d(x,y) <= max( d(x,z), d(z,y) )
similarité
dissimilarité
distance
Ultra-métrique
Page 41
Classification
Attributs
numériques
symboliques
graphes
Quels sont les « bons attributs » ?
Méthodes de sélection automatiques
Risque lié au compromis entre le coût en mémoire et le
potentiel informatif des attributs conservés
2007 - 2008
Campedel
Page 42
Modélisation
« La modélisation est la conception d'un modèle. Le terme est
employé dans plusieurs domaines : […] permet d'analyser des
phénomènes réels et de prévoir des résultats à partir de l'application
d'une ou plusieurs théories à un niveau d'approximation donné […] »
selon wikipedia
Modèles ?
statistiques, numériques (analytiques), …
simulations
Modèles que vous connaissez ? Dans quels contextes ?
2007 - 2008
Campedel
Page 43
Exemple simple
Régression linéaire
.
Modèle : Y = a·X + b
Technique des moindres
carrés = minimiser l’erreur :
Qualité du modèle ?
2007 - 2008
Campedel
Mesure d’erreur entre les données réelles et les données
prédites par le modèle
Page 44
Prédiction : les marchés financiers !
Validité temporelle à court terme, « Tendance »
Analyse technique
Exemple
http://www.abcbourse.com/Apprendre/11_lecons_at_intro.html
Situation à risque : votre avis ? s’il existait un
modèle génial permettant de prédire le marché,
celui-ci s’effondrerait !
2007 - 2008
Campedel
Page 45
Communications - Transmission
Développement rapide des moyens de communication de
masse
Internet (années 80)
Les caméras (webcam), visioconférence
Antennes, fibre optique, …
Sans fil
…
2007 - 2008
Campedel
Page 46
Les risques en transmission
Problème physique
Dû au support physique (canal de transmission)
Atténuation/perte du signal
Echo http://www.tsi.enst.fr/~prado/annecho/principe.html
Problème de la qualité du message récupéré
Exemple codage audio très bas débit (pb du bruit)
Codage de parole à très bas débit (inférieurs à 600 bits/s).
http://www.esiee.fr/~baudoing/recherche.html
Original
2007 - 2008
Campedel
codé
15dB métro
codé
Page 47
De l’information à la connaissance
2007 - 2008
Campedel
Constat 1 : une grande masse d’information circule
Constat 2 : ce qui est information pour les uns
peut être bruit pour les autres
Constat 3 : l’information accessible est parfois
contradictoire (pb de fiabilité, contrôle)
Page 48
Exploitabilité des informations
En lien avec utilité, fiabilité
Connaissance = information exploitée, organisée et codée
informatiquement et savoir = ensemble de connaissances
Représentée par
Des concepts (modèles, classes, …)
Des relations entre les concepts (hiérarchiques, autres ?)
Outils de gestion des connaissances
Bases de données
Ontologies
2007 - 2008
Campedel
Page 49
Exemple d’ontologie
2007 - 2008
Campedel
Page 50
Conceptualisation
Les concepts sont issus d’un consensus sur la
représentation choisie
On observe des individus (éléments d’information) qui se
retrouve souvent dans le même contexte
Difficile à obtenir de façon automatique, manuelle ?
Outils de fouille, classification de textes pour avoir les
concepts sémantiques clés d’un domaine et des relations
(patrons)
Supervision humaine pour sélection, vérification
2007 - 2008
Campedel
Page 51
Conceptualisation d’une situation à risque ?
Acteurs ? Données capteurs ? Sources d’informations ?
Victimes ? Aides possibles ? … et relations ?
Images
satellitaires
Outils de
traitement
d’images
SIG
tsunami
Experts variés : physiciens,
géologues, géographes,
sociologues, psychologues,
traiteurs d’images, risque, …
2007 - 2008
Campedel
Gouvernement du pays
victimes
Organisations humanitaires, …
Page 52
Evolution dans le temps
Est-il utile de conceptualiser ?
Non car chaque catastrophe est unique dans l’espace et le
temps
Oui car …
Importance de la mémoire
Information du passé intégrée
Conceptualiser permet de raisonner avec un niveau
d’abstraction supérieur
mise en place de protocoles (« principe de précaution »)
2007 - 2008
Campedel
Page 53
Conclusion
Cours « pub » pour diverses technologies… il en existe
bien d’autres !
Idée 1 : beaucoup d’information et d’outils de traitement de
cette information sont disponibles autour de nous (en
particulier pour détecter, gérer puis analyser une situation à risque)
Idée 2 : faire qu’une personne donnée parvienne a
récupérer une information utile pour lui rapidement est
encore un challenge !
Idée 3 : nécessité de structurer l’information pour qu’elle
devienne connaissance et puisse être exploitée.
2007 - 2008
Campedel
Page 54
Téléchargement