Indexation visuelle et recherche d`images sur le Web

Téléchargement

ECOLE DES HAUTES ETUDES EN SCIENCES SOCIALES

Mémoire de Master II : Histoire visuelle

Indexation visuelle et recherche d’images

sur le Web :

Enjeux et problèmes

Amélie Segonds

Directeur de recherche

André Gunthert

2009

Sommaire

Introduction

Chapitre 1

L’indexation sur les moteurs de recherche du Web………………….p. 9

I. Internet : un nouvel espace documentaire

II. L’indexation des documents visuels par les moteurs de recherche

Chapitre 2

L’indexation sémantique et la Folksonomie……………………….....p. 34

I. L’apparition d’une indexation sociale

II. Vers les nouveaux usages de la folksonomie

III. Les limites de la folksonomie

Chapitre 3

Le géotagging comme nouveau système d’indexation……………......p. 74

I. Les présupposés d’une indexation par coordonnées géographiques

II. Les mises en application sur le Web

III. Vers un déplacement de la sphère documentaire

Chapitre 4

L’indexation et la recherche par le contenu …………………………..p. 108

I. La recherche de l’image par l’image

II. Une observation des sites en ligne

III. Les enjeux de la recherche par le contenu

Conclusion générale

………………………………………………………………p.147

Bibliographie

.............................................................................................................p.151

Introduction

L’une des évolutions majeures du Web aujourd’hui concerne le changement de

nature du document à l’échelle de son déploiement sur les réseaux. Comme le souligne le

collectif de chercheurs RTP-DOC « Le Web savant initial était un Web de documents

rédigés. Il ne représente qu’une faible minorité du trafic d’Internet désormais. Ce sont des

documents multimédia qui s’échangent massivement (musique, image, vidéo). Plus

largement, c’est la place de l’image qui change le niveau de participation aux réseaux et à

la production documentaire.

». Une renégociation documentaire est à l’œuvre sur le Web,

signant la fin de la suprématie du texte et ratifiant l’importance croissante portée au partage

et à la circulation des documents visuels. De cette transformation de nature des documents

du Web découlent nécessairement de nouvelles interrogations d’une part quant au

traitement des masses documentaires inédites dans leur forme. Elle repose d’autre part la

question de la recherche et de l’accès pertinent à ces mêmes documents. Et l’on suivra

volontiers RTP-DOC quand ils considèrent que cette « transformation des propriétés

sémiotiques des documents les plus échangés constitue une révolution dont on n’a sans

doute pas encore perçu tous les effets […] L’analyse du document, de ses enjeux en termes

d’indexation ne peut ignorer la concomitance de ce développement des machines à

produire des images numériques peu coûteuses et de la participation étendue à des milieux

sociaux beaucoup plus divers que les premières époques d’internet.

».

La généralisation des supports numériques, l'apparition de formats vidéo et photo

compacts, l’émergence du Web 2.0, de ses espaces de partage de données multimédias et

sites collaboratifs ont engendré une augmentation vertigineuse de la quantité de documents

visuels sur le Web. Les chiffres récents du nombre d’images circulant sur Internet

recensent des milliards d’items au moment même où plus d’un million de photographies

numériques sont mises en ligne par jour. La question n’est plus aujourd’hui de produire

de nouvelles images mais de trouver l’image déjà existante dans le stock disponible. Le

problème crucial à prendre en compte face à ce flux ininterrompu de production d’images

est celui de leur indexation. Les techniques dites d'indexation, dans le champ du visuel

comme du textuel, se proposent d'attacher à une image ou à une vidéo ou tout type de

Pédauque, Roger T. Documents et modernité [en ligne].Paris : CNRS, 2006 (consulté le 25/03/09).

Disponible sur : http://rtp-doc.enssib.fr/IMG/pdf/Pedauque3-V4.pdf

Ibid.

document, un ensemble de descripteurs de leur contenu, dans le but de mesurer la

ressemblance avec les descripteurs correspondant à la requête. Or comme le souligne

Bruno Bachimont « si le texte « est sa propre indexation», la mémoire audiovisuelle reste

muette sans traitement documentaire

». Il s’agit donc pour nous de comprendre ces

traitements documentaires nécessaires sans lesquels aucune indexation de ressources

visuelles n’est possible.

L'indexation est un besoin ancien mais une pratique récente thématisée par des

disciplines jeunes, la documentation et la bibliothéconomie. Élaborée ces deux derniers

siècles (au XX

siècle en ce qui concerne la documentation), l'indexation a concerné de

manière privilégiée les contenus textuels à partir desquels ont été mis au point ses

procédés et méthodes. En tant que notion de classification, l’indexation est un terme

récurrent en science de l’information et appartient au domaine de la gestion documentaire,

l'indexation relève avant tout d'un travail sur le contenu, où l'interprétation et le

discernement sont la clé pour représenter un document de manière à pouvoir le retrouver. Il

nous semble utile, à ce stade, de préciser la différence entre les notions de catalogage, de

classification et d’indexation. Le catalogage consiste à décrire physiquement un document,

quel que soit son format, permettant d'une part de l'identifier de façon unique et d'autre part

de le repérer par le biais d'une caractéristique qui n'a pas rapport à son contenu (numéro

ISBN, nom de l'auteur, etc.).

La classification permet de rattacher un document, après en avoir analysé le contenu de

façon générale, à une catégorie, à un ensemble de documents qui traitent du même sujet.

Le document est ici considéré comme une entité.

Quant à l'indexation, on ne considère plus le document comme une entité distincte mais on

considère plutôt les éléments d'information qui s'y trouvent. Si le but de l'indexation est

toujours de créer des regroupements de documents sur un même sujet, la description se fait

plus précise. L'indexation nous permettra donc d'accéder par exemple à tous les documents

qui fournissent de l'information sur un même sujet, peu importe que le document qui

contient cette information ait été classé dans telle ou telle catégorie.

En effet, l'indexation est cette technique consistant à caractériser le contenu d'un

document et l'information qu'il détient de manière à le retrouver quand on effectue des

recherches sur l'un des sujets dont il traite. La difficulté est donc de savoir caractériser et

Bachimont, Bruno. Bibliothèques numériques audiovisuelles : des enjeux scientifiques et techniques.

Document numérique, 1998, vol. 2, n° 3-4, p. 219-242

représenter l'information documentaire pour qu'il soit aisé de la mettre en rapport avec des

sujets d'investigation. Mise en rapport d'une requête et d'un contenu représenté et

synthétisé, l'indexation permet de s'orienter dans la masse des documents et d'organiser ses

connaissances. Si l’indexation permet une recherche efficace d’un document, demeure la

clé du fonctionnement des moteurs de recherche, cette étape constitue un problème majeur

sur le web, en raison de la croissance constante du nombre de documents numériques bruts,

non renseignés, qui y circulent.

Dès l’apparition de la technologie numérique de nombreux projets ont vu le jour en

recherche d’information visant à plus d’efficacité et de simplicité dans le classement,

l’indexation et l’accès aux données. Ces projets aboutissent à la création de logiciels de

recherche plein texte ou de reconnaissance des signes performants, aujourd’hui employés

sur Internet. Selon l’enquête de Kobayashi and Takeda

, 80% des usagers du Web utilisent

des moteurs de recherche, de type Google ou Yahoo!, pour trouver une information. Créés

à une époque où le Web est principalement un outil de recherche de document textuel

fonctionnant selon le principe de double articulation du langage, ces moteurs ont hérité des

différentes avancées dans le domaine de l’automatisation du traitement documentaire.

Au regard du succès des moteurs de recherche développés pour le texte, les moteurs

de recherche d'image sont comparativement encore rares et peu puissants du fait même de

la difficulté à indexer ces documents. Une photographie ne peut en effet se décomposer en

unités facilement repérables comme des chaînes de caractères séparées par des blancs

permettant la recherche plein texte. Sur le Web, la recherche de documents visuels

demeure encore très largement dominée par l’analyse du texte entourant une image et la

requête par mots-clés. Si ces dernières connaissent des limites au niveau de la pertinence

des résultats, elles sont aussi critiquées pour ne prendre en compte que les éléments

textuels et non les caractéristiques propres aux images. Dès les années 1990, de nombreux

laboratoires de recherche en France comme à l’étranger ont conduit des projets qui visent à

une automatisation de l’indexation des documents iconographiques à partir de descripteurs

visuels.

Deux approches coexistent donc aujourd’hui quant à l’indexation des documents visuels,

une méthode sémantique qui, pour l’instant et comme le rappelle Antoine Manzarena est

manuelle. Une étape selon laquelle, « l'opérateur d'indexation attache au document des

Kobayashi, M. and Takeda, K, Information Retrieval on the Web, ACM Computing Surveys, 2000, Vol.32,

No.2, 144-173.

100

101

102

103

104

105

106

107

108

109

110

111

112

113

114

115

116

117

118

119

120

121

122

123

124

125

126

127

128

129

130

131

132

133

134

135

136

137

138

139

140

141

142

143

144

145

146

147

148

149

150

151

152

153

154

155

156

157

158

159

160

161

162

163

164

165

1 / 165 100%

Documents connexes

TD N 1 SRI 2018(2)

Knowledge Management - DESTIN Informatique

Stratégie de mise en place d`une structure informatique de

Télécharger

Blog de veille pour la mise à disposition de

Social bookmarking

ITTIA-DB: : ITTIA-DB, la base de données pour l - ac6

Moteur

Google est-il intelligent ? (deux séances)

TME

Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans l'interface ou les textes ? Ou savez-vous comment améliorer l'interface utilisateur de StudyLib ? N'hésitez pas à envoyer vos suggestions. C'est très important pour nous!

GDPR Confidentialité Conditions d'utilisation

Indexation visuelle et recherche d`images sur le Web

Documents connexes

Faire une suggestion

Produits

Assistance

Produits

Assistance

Indexation visuelle et recherche d`images sur le Web

Documents connexes

Faire une suggestion

Produits

Assistance

Ajouter ce document à la (aux) collections

Ajouter ce document à enregistré

Suggérez-nous comment améliorer StudyLib