N - Institut d`électronique et d`informatique Gaspard

Eric Laporte
Institut Gaspard-Monge
Université Paris-Est Marne-la-Vallée
France
http://www-igm.univ-mlv.fr/~laporte/
Etiquettes lexicales, grammaires
Tokenisation
Rappel et précision en recherche d'informations
Élaboration d'une requête
Grammaires locales
Informations lexicales
Etiquettes lexicales
Lexiques pour le traitement des langues
Ambiguïtés
Consultation
Structures de traits
Recherche de formes
Masques lexicaux
Objectifs
Tokenisation
Tokenisation (1/2)
Tokens : éléments simples d'un texte écrit
Passer d'une séquence de caractères à une séquence de tokens
Je vais fermer l'autre porte
/Je/vais/fermer/l/'/autre/porte/
Définition des tokens
Les mots délimités par des espaces ?
/l'autre/ /autre,/
Certains symboles
- peuvent gêner la comparaison entre mots
- peuvent avoir une importance en eux-mêmes
/l/'/autre/ /autre/,/
Tokens-mots et tokens-non-mots
Tokenisation (2/2)
Définition par les délimiteurs
Simple
Fournit seulement les tokens-mots
Définition par les tokens
Fournit les tokens-mots et les tokens-non-mots
Permet de séparer 2 tokens sans délimiteur. Ex. :
60%, 1970s, G8
Dans les deux cas, expressions rationnelles
[^\w\s] un symbole de ponctuation
\w+ une séquence d'1 ou plusieurs caractères alphanumériques
\d+ une séquence d'1 ou plusieurs chiffres
1 / 55 100%

N - Institut d`électronique et d`informatique Gaspard

La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !