BLT6052 Informatique documentaire NatQuest Pro: un logiciel de recherche en texte intégral (LRTI) Copyright © 2004-2007 Yves Marcoux - Reproduction interdite 1 NatQuest versus recherche textuelle de Windows et Office • NatQuest appelle document l’unité documentaire indexée et repérée • Parfois, 1 document = 1 fichier: dans les cas où on ne spécifie pas de séparateur de documents • Si on spécifie un séparateur de documents, alors 1 fichier contient plusieurs documents Copyright © 2004-2007 Yves Marcoux - Reproduction interdite 2 (suite) • La recherche est toujours indexée (donc, rapide), jamais séquentielle • L'antidictionnaire est modifiable séparément pour chaque base Copyright © 2004-2007 Yves Marcoux - Reproduction interdite 3 (suite) • Fait un meilleur travail pour extraire les contenus textuels (filtres) • La recherche ignore les signes diacritiques (accents, cédilles, etc.) • On peut visualiser l'index au moment de composer les requêtes de recherche, on voit donc quels mots se trouvent vraiment dans les documents indexés Copyright © 2004-2007 Yves Marcoux - Reproduction interdite 4 (suite) • Par défaut, les résultats d'une recherche sont triés par « ordre de pertinence estimée », ordre basé sur le nombre de termes de recherche présents dans le document et leur proximité • Si on demande explicitement un autre ordre de tri ou s'il y a un opérateur explicite (autre chose qu'un OU), l'ordre de pertinence estimé n'est pas utilisé Copyright © 2004-2007 Yves Marcoux - Reproduction interdite 5 (suite) • À partir de l'affichage des résultats d'une recherche, on peut « entrer à l'intérieur » des documents repérés: – Les termes recherchés sont mis en évidence – On peut naviguer d'un document repéré à l'autre, et d'une occurrence à l'autre des termes recherchés Copyright © 2004-2007 Yves Marcoux - Reproduction interdite 6 Création d'index par NatQuest Pro • Références: – Protocole TP2 (§1.1 et p.33 « Processus d’indexation, antidictionnaire ») – Appendice B du cahier de protocoles (Construction d’index par NatQuest Pro) • Les deux fichiers indexés sont les fichiers texte suivants: – commu1.xml.txt – commu2.xml.txt Copyright © 2004-2007 Yves Marcoux - Reproduction interdite 7 (suite) • Dans le second index: – Le mot "communique" n'apparaît plus car la chaîne "<Communiqué>" sert maintenant de séparateur de documents (et que le mot "communique" n'apparaît pas ailleurs dans les fichiers) – Certains nombres de documents sont plus élevés que dans le premier index Copyright © 2004-2007 Yves Marcoux - Reproduction interdite 8 Opérateurs de recherche de NatQuest • Pluriels simples automatiques – Cette fonction est active par défaut, mais peut être désactivée – Dans les deux directions: chat recherche aussi chats, et chats recherche aussi chat – Limité au pluriels réguliers: cheval recherchera aussi chevals – Insensible au sens des mots: tracas (ennui) recherchera aussi traça (du verbe tracer) Copyright © 2004-2007 Yves Marcoux - Reproduction interdite 9 Caractères génériques * troncature – représente 0 caractères ou plus – peut être utilisé à droite et/ou à gauche et/ou à l'intérieur d'un terme de recherche ? masque – représente exactement 1 caractère – peut être utilisé n'importe où dans un terme de recherche Copyright © 2004-2007 Yves Marcoux - Reproduction interdite 10 Autres opérateurs de recherche • Voir protocole du TP 2 – Opérateurs booléens OU, ET, SAUF: « », « & », « - » (le OU est implicite: un simple espace) – Intervalle: 1985@2025 – Distance: nw – Recherche d’expression: guillemets ou adjacence (adj) • adj est exactement équivalent à 0w Copyright © 2004-2007 Yves Marcoux - Reproduction interdite 11 Divers • L’opérateur de distance (nw) tient compte de l’ordre des mots – L’adjacence (adj) aussi • Antidictionnaire – Fichier <nom-de-la-base>.NQS – Il s'agit d'un fichier texte ISO-8859-1 (ANSI) – Donc, modifiable dans le Bloc-notes Copyright © 2004-2007 Yves Marcoux - Reproduction interdite 12 Bruit et silence • Définitions: dans toute démarche de recherche d'information* – – – – bruit = repérage d'information non pertinente silence = non repérage d'information pertinente peu de bruit = bonne précision peu de silence = bon rappel • N.B.: Seule la personne éprouvant le besoin d’information à l’origine de la démarche peut évaluer la pertinence * Pas seulement avec un LRTI Copyright © 2004-2007 Yves Marcoux - Reproduction interdite 13 (suite) • Théoriquement, il est possible qu'une modification à une démarche de recherche (ex.: modifier une requête de recherche) augmente à la fois le rappel et la précision • En pratique, toutefois, une mesure prise pour augmenter le rappel (ex.: changer un "ET" booléen par un "OU" booléen) diminue souvent la précision, et vice-versa Copyright © 2004-2007 Yves Marcoux - Reproduction interdite 14 Délimiteurs de champs • Si les documents contiennent des délimiteurs de champs, on peut les "déclarer" à NatQuest avant l'indexation • En plus de noter dans l'index la position de chaque occurrence de mot, NatQuest notera aussi le nom du champ dans lequel cette occurrence survient Copyright © 2004-2007 Yves Marcoux - Reproduction interdite 15 (suite) • Il est alors possible (mais non obligatoire) de limiter la recherche de certains termes à un champ précis (voir protocole TP2 pour détails) Copyright © 2004-2007 Yves Marcoux - Reproduction interdite 16 Recherche en langue naturelle? • Comment NatQuest arrive-t-il à donner l'impression de "comprendre" les requêtes en langue naturelle? – pluriels simples automatiques – élimination des mots vides de la requête – OU booléen implicite entre les termes de recherche – tri des résultats par ordre de pertinence estimée Copyright © 2004-2007 Yves Marcoux - Reproduction interdite 17 Notes sur les opérateurs booléens • "ET" et "OU" dans la langue courante n'ont pas toujours la même signification qu'en logique booléenne: – Pour avoir "tout ce qui s'est publié au Québec et en France" il faut utiliser un "OU" booléen sur le lieu de publication – En logique booléenne, le "OU" est toujours inclusif (et non exclusif): "chien OU chat" veut dire "chien" ou "chat" ou les deux! Copyright © 2004-2007 Yves Marcoux - Reproduction interdite 18 Notes sur l’antidictionnaire • S'il est trop vide: – L'index est encombré de mots inutiles – Avec NatQuest: ces mots inutiles vont causer du bruit dans les requêtes en langue naturelle • S'il est trop plein, risque de silence, dû à: – Problèmes d'homographie – Problèmes de polysémie – Problèmes aggravés par l'élimination des signes diacritiques Copyright © 2004-2007 Yves Marcoux - Reproduction interdite 19 (suite) • Problèmes d'homographie – Deux mots différents s'écrivent de la même façon, mais un seul nous intéresse • thé (breuvage) vs the (article anglais) • lis (verbe lire) vs lis (fleur) vs LIS (Library & Information Studies) • mille (nombre) vs mille (distance) • enceinte (acoustique) vs (femme) enceinte Copyright © 2004-2007 Yves Marcoux - Reproduction interdite 20 (suite) • Problèmes de polysémie – Un même mot a plusieurs sens, dont un seul nous intéresse • table (de logarithmes) vs table (d'opération) • travail (en relations industrielles) vs travail (en obstétrique) • laser (appareil optique) et laser (marque de voilier) • Homographie et polysémie affectent la recherche en général, pas seulement les choix de mots vides Copyright © 2004-2007 Yves Marcoux - Reproduction interdite 21