BLT6052 Informatique documentaire

publicité
BLT6052 Informatique
documentaire
NatQuest Pro:
un logiciel de recherche en texte
intégral (LRTI)
Copyright © 2004-2007 Yves Marcoux - Reproduction interdite
1
NatQuest versus recherche
textuelle de Windows et Office
• NatQuest appelle document l’unité
documentaire indexée et repérée
• Parfois, 1 document = 1 fichier: dans les
cas où on ne spécifie pas de séparateur
de documents
• Si on spécifie un séparateur de
documents, alors 1 fichier contient
plusieurs documents
Copyright © 2004-2007 Yves Marcoux - Reproduction interdite
2
(suite)
• La recherche est toujours indexée (donc,
rapide), jamais séquentielle
• L'antidictionnaire est modifiable
séparément pour chaque base
Copyright © 2004-2007 Yves Marcoux - Reproduction interdite
3
(suite)
• Fait un meilleur travail pour extraire les
contenus textuels (filtres)
• La recherche ignore les signes diacritiques
(accents, cédilles, etc.)
• On peut visualiser l'index au moment de
composer les requêtes de recherche, on
voit donc quels mots se trouvent vraiment
dans les documents indexés
Copyright © 2004-2007 Yves Marcoux - Reproduction interdite
4
(suite)
• Par défaut, les résultats d'une recherche
sont triés par « ordre de pertinence
estimée », ordre basé sur le nombre de
termes de recherche présents dans le
document et leur proximité
• Si on demande explicitement un autre
ordre de tri ou s'il y a un opérateur
explicite (autre chose qu'un OU), l'ordre de
pertinence estimé n'est pas utilisé
Copyright © 2004-2007 Yves Marcoux - Reproduction interdite
5
(suite)
• À partir de l'affichage des résultats d'une
recherche, on peut « entrer à l'intérieur »
des documents repérés:
– Les termes recherchés sont mis en évidence
– On peut naviguer d'un document repéré à
l'autre, et d'une occurrence à l'autre des
termes recherchés
Copyright © 2004-2007 Yves Marcoux - Reproduction interdite
6
Création d'index par
NatQuest Pro
• Références:
– Protocole TP2 (§1.1 et p.33 « Processus
d’indexation, antidictionnaire »)
– Appendice B du cahier de protocoles
(Construction d’index par NatQuest Pro)
• Les deux fichiers indexés sont les fichiers
texte suivants:
– commu1.xml.txt
– commu2.xml.txt
Copyright © 2004-2007 Yves Marcoux - Reproduction interdite
7
(suite)
• Dans le second index:
– Le mot "communique" n'apparaît plus car la
chaîne "<Communiqué>" sert maintenant de
séparateur de documents (et que le mot
"communique" n'apparaît pas ailleurs dans les
fichiers)
– Certains nombres de documents sont plus
élevés que dans le premier index
Copyright © 2004-2007 Yves Marcoux - Reproduction interdite
8
Opérateurs de recherche de
NatQuest
• Pluriels simples automatiques
– Cette fonction est active par défaut, mais peut
être désactivée
– Dans les deux directions: chat recherche
aussi chats, et chats recherche aussi chat
– Limité au pluriels réguliers: cheval
recherchera aussi chevals
– Insensible au sens des mots: tracas (ennui)
recherchera aussi traça (du verbe tracer)
Copyright © 2004-2007 Yves Marcoux - Reproduction interdite
9
Caractères génériques
* troncature
– représente 0 caractères ou plus
– peut être utilisé à droite et/ou à gauche et/ou
à l'intérieur d'un terme de recherche
? masque
– représente exactement 1 caractère
– peut être utilisé n'importe où dans un terme
de recherche
Copyright © 2004-2007 Yves Marcoux - Reproduction interdite
10
Autres opérateurs de recherche
• Voir protocole du TP 2
– Opérateurs booléens OU, ET, SAUF:
« », « & », « - »
(le OU est implicite: un simple espace)
– Intervalle: 1985@2025
– Distance: nw
– Recherche d’expression: guillemets ou
adjacence (adj)
• adj est exactement équivalent à 0w
Copyright © 2004-2007 Yves Marcoux - Reproduction interdite
11
Divers
• L’opérateur de distance (nw) tient compte
de l’ordre des mots
– L’adjacence (adj) aussi
• Antidictionnaire
– Fichier <nom-de-la-base>.NQS
– Il s'agit d'un fichier texte ISO-8859-1 (ANSI)
– Donc, modifiable dans le Bloc-notes
Copyright © 2004-2007 Yves Marcoux - Reproduction interdite
12
Bruit et silence
• Définitions: dans toute démarche de recherche
d'information*
–
–
–
–
bruit = repérage d'information non pertinente
silence = non repérage d'information pertinente
peu de bruit = bonne précision
peu de silence = bon rappel
• N.B.: Seule la personne éprouvant le besoin
d’information à l’origine de la démarche peut
évaluer la pertinence
* Pas seulement avec un LRTI
Copyright © 2004-2007 Yves Marcoux - Reproduction interdite
13
(suite)
• Théoriquement, il est possible qu'une
modification à une démarche de recherche
(ex.: modifier une requête de recherche)
augmente à la fois le rappel et la précision
• En pratique, toutefois, une mesure prise
pour augmenter le rappel (ex.: changer un
"ET" booléen par un "OU" booléen)
diminue souvent la précision, et vice-versa
Copyright © 2004-2007 Yves Marcoux - Reproduction interdite
14
Délimiteurs de champs
• Si les documents contiennent des
délimiteurs de champs, on peut les
"déclarer" à NatQuest avant l'indexation
• En plus de noter dans l'index la position de
chaque occurrence de mot, NatQuest
notera aussi le nom du champ dans lequel
cette occurrence survient
Copyright © 2004-2007 Yves Marcoux - Reproduction interdite
15
(suite)
• Il est alors possible (mais non obligatoire)
de limiter la recherche de certains termes
à un champ précis (voir protocole TP2
pour détails)
Copyright © 2004-2007 Yves Marcoux - Reproduction interdite
16
Recherche en langue naturelle?
• Comment NatQuest arrive-t-il à donner
l'impression de "comprendre" les requêtes
en langue naturelle?
– pluriels simples automatiques
– élimination des mots vides de la requête
– OU booléen implicite entre les termes de
recherche
– tri des résultats par ordre de pertinence
estimée
Copyright © 2004-2007 Yves Marcoux - Reproduction interdite
17
Notes sur les opérateurs booléens
• "ET" et "OU" dans la langue courante n'ont
pas toujours la même signification qu'en
logique booléenne:
– Pour avoir "tout ce qui s'est publié au Québec
et en France" il faut utiliser un "OU" booléen
sur le lieu de publication
– En logique booléenne, le "OU" est toujours
inclusif (et non exclusif): "chien OU chat" veut
dire "chien" ou "chat" ou les deux!
Copyright © 2004-2007 Yves Marcoux - Reproduction interdite
18
Notes sur l’antidictionnaire
• S'il est trop vide:
– L'index est encombré de mots inutiles
– Avec NatQuest: ces mots inutiles vont causer
du bruit dans les requêtes en langue naturelle
• S'il est trop plein, risque de silence, dû à:
– Problèmes d'homographie
– Problèmes de polysémie
– Problèmes aggravés par l'élimination des
signes diacritiques
Copyright © 2004-2007 Yves Marcoux - Reproduction interdite
19
(suite)
• Problèmes d'homographie
– Deux mots différents s'écrivent de la même
façon, mais un seul nous intéresse
• thé (breuvage) vs the (article anglais)
• lis (verbe lire) vs lis (fleur) vs LIS
(Library & Information Studies)
• mille (nombre) vs mille (distance)
• enceinte (acoustique) vs (femme) enceinte
Copyright © 2004-2007 Yves Marcoux - Reproduction interdite
20
(suite)
• Problèmes de polysémie
– Un même mot a plusieurs sens, dont un seul
nous intéresse
• table (de logarithmes) vs table (d'opération)
• travail (en relations industrielles) vs travail (en
obstétrique)
• laser (appareil optique) et laser (marque de voilier)
• Homographie et polysémie affectent la
recherche en général, pas seulement les
choix de mots vides
Copyright © 2004-2007 Yves Marcoux - Reproduction interdite
21
Téléchargement