Power Point

Téléchargement

Nouvelles méthodes statistiques pour le texte CNPLET/MEN 2013, Ghardaia, 27-30 Novembre 2013

lamirel@loria.fr 0

Nouvelles méthodes statistiques pour la

traitement des données textuelles volumineuses

et changeantes

Jean-Charles LAMIREL

LORIA – SYNALP, Vandœuvre-lès-Nancy, FRANCE

CNPLET/MEN,

27-30 Novembre 2013

Nouvelles méthodes statistiques pour le texte CNPLET/MEN 2013, Ghardaia, 27-30 Novembre 2013

lamirel@loria.fr 1

L’analyse des données textuelles nécessite de s’adapter aux nouvelles

formes d’information disponibles en ligne.

Cela implique de prendre en compte des techniques qui supportent :

Les données volumineuses, éparses et fortement multidimensionnelles,

Le traitement des données rares, similaires et/ou déséquilibrées,

Le traitement des données changeantes,

Les interactions multiples entre les sources,

Les réseaux potentiels de composition.

Une des tâches principales de l’analyse est la

classification/discrimination des données.

Les méthodes/distances classiques s’adaptent mal à ces contraintes.

CONTRAINTES ÉMERGENTES EN ANALYSE DES

DONNÉES TEXTUELLES

Nouvelles méthodes statistiques pour le texte CNPLET/MEN 2013, Ghardaia, 27-30 Novembre 2013

lamirel@loria.fr 2

Réviser la notion de distance classique en examinant de meilleurs

compromis entre la généralité et la discrimination :

Les distances euclidiennes sont inadaptées aux données éparses

et/ou multidimensionnelles,

Les distances statistiques comme le Khi 2 privilégient la discrimination

par rapport à la généralité.

Chercher des solutions alternatives en s’inspirant du domaine de la

recherche d’information :

Rappel (ou discrimination),

Précision (ou généralité),

Mesure F (ou compromis discrimination/généralité).

Conserver la possibilité de mener des analyses non supervisées.

=> Théorie de la maximisation de l’étiquetage.

SOLUTIONS APPORTÉES

Nouvelles méthodes statistiques pour le texte CNPLET/MEN 2013, Ghardaia, 27-30 Novembre 2013

lamirel@loria.fr 3

La métrique de maximisation d’étiquetage :

Principes fondateurs,

Présentation à partir d’un exemple,

Panel de quelques applications actuelles.

Quelques exemples choisis d’application :

Analyse de discours et discrimination de contenu,

Analyse de l’interdisciplinarité dans les domaines scientifiques

Perspectives en cours.

PLAN DE LA PRÉSENTATION

Groupe C1

Cluster associated data

R ( ) = 1

P ( ) = 1

R ( ) = 1

P ( ) = 2/3

R ( ) = 4/5

P ( ) = 1

R ( ) = 1

P ( ) = 1/2

: Propriétés des données Propriétés des données

Groupe C2

Cluster associated data

MÉTRIQUE DE MAXIMISATION D’ÉTIQUETAGE

Principe [Lamirel et al. 04]

Le Rappel (R) mesure la discrimination d’une propriété et la

Précision (P) sa généralité. On en cherche le meilleur compromis.

1 / 22 100%

Documents connexes

Etiquetage légal des denrées alimentaires pré-emballées

Actualités - CCI Champagne-Ardenne - Plate

Une nouvelle méthode statistique pour la

Propositions

Classification des salariés en Suivi Individuel Renforcé

Stage pratique en ethnomuséographie au MEN

Anthropologie de l`objet

Économie et Politique de Santé

Etiquetage uniforme public en cas de maladies contagieuses

Avis aux détaillants concernant l`étiquetage d`origine des produits

L`agence /création

Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans l'interface ou les textes ? Ou savez-vous comment améliorer l'interface utilisateur de StudyLib ? N'hésitez pas à envoyer vos suggestions. C'est très important pour nous!

GDPR Confidentialité Conditions d''utilisation

Power Point

Documents connexes

Faire une suggestion

Produits

Assistance

Produits

Assistance

Power Point

Documents connexes

Faire une suggestion

Produits

Assistance

Ajouter ce document à la (aux) collections

Ajouter ce document à enregistré

Suggérez-nous comment améliorer StudyLib