Indexation visuelle et recherche d`images sur le Web

ECOLE DES HAUTES ETUDES EN SCIENCES SOCIALES
Mémoire de Master II : Histoire visuelle
Indexation visuelle et recherche d’images
sur le Web :
Enjeux et problèmes
Amélie Segonds
Directeur de recherche
André Gunthert
2009
2
Sommaire
Introduction
Chapitre 1
L’indexation sur les moteurs de recherche du Web………………….p. 9
I. Internet : un nouvel espace documentaire
II. L’indexation des documents visuels par les moteurs de recherche
Chapitre 2
L’indexation sémantique et la Folksonomie……………………….....p. 34
I. L’apparition d’une indexation sociale
II. Vers les nouveaux usages de la folksonomie
III. Les limites de la folksonomie
Chapitre 3
Le géotagging comme nouveau système d’indexation……………......p. 74
I. Les présupposés d’une indexation par coordonnées géographiques
II. Les mises en application sur le Web
III. Vers un déplacement de la sphère documentaire
Chapitre 4
L’indexation et la recherche par le contenu …………………………..p. 108
I. La recherche de l’image par l’image
II. Une observation des sites en ligne
III. Les enjeux de la recherche par le contenu
Conclusion générale
………………………………………………………………p.147
Bibliographie
.............................................................................................................p.151
3
Introduction
L’une des évolutions majeures du Web aujourd’hui concerne le changement de
nature du document à l’échelle de son déploiement sur les réseaux. Comme le souligne le
collectif de chercheurs RTP-DOC « Le Web savant initial était un Web de documents
rédigés. Il ne représente qu’une faible minorité du trafic d’Internet désormais. Ce sont des
documents multimédia qui s’échangent massivement (musique, image, vidéo). Plus
largement, c’est la place de l’image qui change le niveau de participation aux réseaux et à
la production documentaire.
1
». Une renégociation documentaire est à l’œuvre sur le Web,
signant la fin de la suprématie du texte et ratifiant l’importance croissante portée au partage
et à la circulation des documents visuels. De cette transformation de nature des documents
du Web découlent nécessairement de nouvelles interrogations d’une part quant au
traitement des masses documentaires inédites dans leur forme. Elle repose d’autre part la
question de la recherche et de l’accès pertinent à ces mêmes documents. Et l’on suivra
volontiers RTP-DOC quand ils considèrent que cette « transformation des propriétés
sémiotiques des documents les plus échangés constitue une révolution dont on n’a sans
doute pas encore perçu tous les effets […] L’analyse du document, de ses enjeux en termes
d’indexation ne peut ignorer la concomitance de ce développement des machines à
produire des images numériques peu coûteuses et de la participation étendue à des milieux
sociaux beaucoup plus divers que les premières époques d’internet.
2
».
La généralisation des supports numériques, l'apparition de formats vidéo et photo
compacts, l’émergence du Web 2.0, de ses espaces de partage de données multimédias et
sites collaboratifs ont engendré une augmentation vertigineuse de la quantité de documents
visuels sur le Web. Les chiffres récents du nombre d’images circulant sur Internet
recensent des milliards d’items au moment même plus d’un million de photographies
numériques sont mises en ligne par jour. La question n’est plus aujourd’hui de produire
de nouvelles images mais de trouver l’image déjà existante dans le stock disponible. Le
problème crucial à prendre en compte face à ce flux ininterrompu de production d’images
est celui de leur indexation. Les techniques dites d'indexation, dans le champ du visuel
comme du textuel, se proposent d'attacher à une image ou à une vidéo ou tout type de
1
Pédauque, Roger T. Documents et modernité [en ligne].Paris : CNRS, 2006 (consulté le 25/03/09).
Disponible sur : http://rtp-doc.enssib.fr/IMG/pdf/Pedauque3-V4.pdf
2
Ibid.
4
document, un ensemble de descripteurs de leur contenu, dans le but de mesurer la
ressemblance avec les descripteurs correspondant à la requête. Or comme le souligne
Bruno Bachimont « si le texte « est sa propre indexation», la mémoire audiovisuelle reste
muette sans traitement documentaire
3
». Il s’agit donc pour nous de comprendre ces
traitements documentaires nécessaires sans lesquels aucune indexation de ressources
visuelles n’est possible.
L'indexation est un besoin ancien mais une pratique récente thématisée par des
disciplines jeunes, la documentation et la bibliothéconomie. Élaborée ces deux derniers
siècles (au XX
e
siècle en ce qui concerne la documentation), l'indexation a concerné de
manière privilégiée les contenus textuels à partir desquels ont été mis au point ses
procédés et méthodes. En tant que notion de classification, l’indexation est un terme
récurrent en science de l’information et appartient au domaine de la gestion documentaire,
l'indexation relève avant tout d'un travail sur le contenu, l'interprétation et le
discernement sont la clé pour représenter un document de manière à pouvoir le retrouver. Il
nous semble utile, à ce stade, de préciser la différence entre les notions de catalogage, de
classification et d’indexation. Le catalogage consiste à décrire physiquement un document,
quel que soit son format, permettant d'une part de l'identifier de façon unique et d'autre part
de le repérer par le biais d'une caractéristique qui n'a pas rapport à son contenu (numéro
ISBN, nom de l'auteur, etc.).
La classification permet de rattacher un document, après en avoir analysé le contenu de
façon générale, à une catégorie, à un ensemble de documents qui traitent du même sujet.
Le document est ici considéré comme une entité.
Quant à l'indexation, on ne considère plus le document comme une entité distincte mais on
considère plutôt les éléments d'information qui s'y trouvent. Si le but de l'indexation est
toujours de créer des regroupements de documents sur un même sujet, la description se fait
plus précise. L'indexation nous permettra donc d'accéder par exemple à tous les documents
qui fournissent de l'information sur un même sujet, peu importe que le document qui
contient cette information ait été classé dans telle ou telle catégorie.
En effet, l'indexation est cette technique consistant à caractériser le contenu d'un
document et l'information qu'il détient de manière à le retrouver quand on effectue des
recherches sur l'un des sujets dont il traite. La difficulté est donc de savoir caractériser et
3
Bachimont, Bruno. Bibliothèques numériques audiovisuelles : des enjeux scientifiques et techniques.
Document numérique, 1998, vol. 2, n° 3-4, p. 219-242
5
représenter l'information documentaire pour qu'il soit aisé de la mettre en rapport avec des
sujets d'investigation. Mise en rapport d'une requête et d'un contenu représenté et
synthétisé, l'indexation permet de s'orienter dans la masse des documents et d'organiser ses
connaissances. Si l’indexation permet une recherche efficace d’un document, demeure la
clé du fonctionnement des moteurs de recherche, cette étape constitue un problème majeur
sur le web, en raison de la croissance constante du nombre de documents numériques bruts,
non renseignés, qui y circulent.
Dès l’apparition de la technologie numérique de nombreux projets ont vu le jour en
recherche d’information visant à plus d’efficacité et de simplicité dans le classement,
l’indexation et l’accès aux données. Ces projets aboutissent à la création de logiciels de
recherche plein texte ou de reconnaissance des signes performants, aujourd’hui employés
sur Internet. Selon l’enquête de Kobayashi and Takeda
4
, 80% des usagers du Web utilisent
des moteurs de recherche, de type Google ou Yahoo!, pour trouver une information. Créés
à une époque le Web est principalement un outil de recherche de document textuel
fonctionnant selon le principe de double articulation du langage, ces moteurs ont hérité des
différentes avancées dans le domaine de l’automatisation du traitement documentaire.
Au regard du succès des moteurs de recherche développés pour le texte, les moteurs
de recherche d'image sont comparativement encore rares et peu puissants du fait même de
la difficulté à indexer ces documents. Une photographie ne peut en effet se décomposer en
unités facilement repérables comme des chaînes de caractères séparées par des blancs
permettant la recherche plein texte. Sur le Web, la recherche de documents visuels
demeure encore très largement dominée par l’analyse du texte entourant une image et la
requête par mots-clés. Si ces dernières connaissent des limites au niveau de la pertinence
des résultats, elles sont aussi critiquées pour ne prendre en compte que les éléments
textuels et non les caractéristiques propres aux images. Dès les années 1990, de nombreux
laboratoires de recherche en France comme à l’étranger ont conduit des projets qui visent à
une automatisation de l’indexation des documents iconographiques à partir de descripteurs
visuels.
Deux approches coexistent donc aujourd’hui quant à l’indexation des documents visuels,
une méthode sémantique qui, pour l’instant et comme le rappelle Antoine Manzarena est
manuelle. Une étape selon laquelle, « l'opérateur d'indexation attache au document des
4
Kobayashi, M. and Takeda, K, Information Retrieval on the Web, ACM Computing Surveys, 2000, Vol.32,
No.2, 144-173.
1 / 165 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !