Préambule L`analyse sémantique latente

Téléchargement

TP Text mining Quelques points sur l’analyse sémantique latente 12/02/07

Préambule

Ce document fait un résumé rapide de l’analyse sémantique latente. Il s’agit d’une méthode

statistique permettant d’extraire automatiquement des relations conceptuelles entre les termes

d’une collection de textes (par exemple : mobylette et voiture sont deux types de vehicule et sont

donc reliés conceptuellement).

L’analyse sémantique latente

Principe

Le principe de cette analyse est très simple. Elle nécessite tout simplement d’avoir à disposition

un logiciel permettant la décomposition en valeurs singulières de matrices.

Encore une fois, l’objectif de cette procédure est de créér un espace de représentation de mots

dans lequel les relations de synonymie et d’hypernymie sont modélisées adéquatement tout comme

la possibilité de polysémie (un même mot qui prend plusieurs sens diﬀérents).

Le principe est le suivant : soit X= [x1·xm]>la matrice où chaque xiest un vecteur-colonne

qui est la représentation vectorielle du document ide la collection (cette représentation peut être

binaire, fréquentielle ou bien TF-IDF). L’analyse sémantique latente consiste simplement à calculer

la décomposition en valeurs singulière de X:

X=UΣV>

où Uet Vsont des matrices orthonormales et Σest une matrice diagonale contenant les valeurs

singulières de X. Il suﬃt alors de se ﬁxer un espace de dimension Ket préserver la valeur des

Kpremières valeurs singulières de Σ(i.e. de X) et annuler les autres. La matrice modiﬁée des

valeurs singulières ˆ

Σpermet de calculer un nouveau codage des textes dans l’espace sémantique

latent par : ˆ

X=Uˆ

ΣV>.

Exemple

Voici un exemple tiré du livre Modeling the Internet and the Web de Pierre Baldi, Paolo

Frasconi, Padhraic Smyth.

L. Ralaivola M2 I2A – BDA 1

TP Text mining Quelques points sur l’analyse sémantique latente 12/02/07

Voici la matrice X>:

et, en conservant les 2 premières valeurs singulières on obtient la nouvelle matrice :

On voit clairement la séparation des termes entre deux sujets ! ! !

Conclusion

Méthode extrêmement simple et très eﬃcace pour l’extraction de relations conceptuelles entre

termes. La question de la dimension à conserver reste un paramètre à régler. L’utilisation de cette

méthode nécessite par ailleurs la disponibilité d’une bibliothèque d’algèbre linéaire permettant de

gérer des matrices de grande dimension (et éventuellement creuses).

L. Ralaivola M2 I2A – BDA 2

1 / 2 100%

Documents connexes

Exercices d`algèbre linéaire

Ahmed ZELLOU

Licence d`Économie - 1re année Mathématiques appliquées S2 TD

Stockage du froid dans l'industrie tunisienne : étude de faisabilité

doc question 5 _ Matrices.doc

PDF Formation - Cegos E

Plan du cours de Marketing Stratgique

La sémantique pour comprendre la valorisation des

champs sémantiques jardinage

3 Décomposition en valeurs singulières

Le Machine Learning : numérique non supervisé et symbolique peu

Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans l'interface ou les textes ? Ou savez-vous comment améliorer l'interface utilisateur de StudyLib ? N'hésitez pas à envoyer vos suggestions. C'est très important pour nous!

GDPR Confidentialité Conditions d''utilisation

Préambule L`analyse sémantique latente

Documents connexes

Faire une suggestion

Produits

Assistance

Produits

Assistance

Préambule L`analyse sémantique latente

Documents connexes

Faire une suggestion

Produits

Assistance

Ajouter ce document à la (aux) collections

Ajouter ce document à enregistré

Suggérez-nous comment améliorer StudyLib