Robert VISEUR

publicité
Technologies de recherche Internet :
un état des lieux
Robert VISEUR
Guide technologique
CETIC
Groupe de discussion - 15/12/2005
1
Contexte de l’exposé
• Recherches appliquées menées au Cetic :
– Technologies Open Source de crawl et d’indexation
– Technologies Retroweb d’extraction Web (pages HTML)
• Exploration de diverses pistes de valorisation :
–
–
–
–
Outils de migration semi-automatique de sites Internet statiques
Outils personnalisés de veille
Moteurs de recherche « grand public »
Moteurs de recherche professionnels (Intranet, Extranet, thèmes)
• Les exposés découlent des travaux en matière de
développement d’outils de recherche sur mesure.
Groupe de discussion - 15/12/2005
2
De quoi parle-t-on ?
•
Sujet : moteurs de recherche Web
•
Assemblages de plusieurs technologies :
–
–
–
–
Pour
Pour
Pour
Pour
la collecte des données (crawler / spider / robot)
l’indexation
l’interrogation
la présentation des résultats
Source : LIFL
Groupe de discussion - 15/12/2005
3
Le marché de la recherche grand public…
• Acteurs internationaux
– Google
– Yahoo
– MSN
• Acteurs régionaux
– Ask Jeeves
– Seekport
(en)
(eu)
• Acteurs locaux (fr-fr)
– Voilà
– Exalead
– Kartoo
(lié à France Telecom)
(fonctions sémantiques)
(cartographie des résultats)
• Constats :
– La position de Google est très forte auprès du grand public... surtout
francophone.
– Des acteurs plus petits peuvent croître et prospérer, grâce à de
nouveaux angles d’attaque (techniques et marketing) du marché.
Groupe de discussion - 15/12/2005
4
Et ses chiffres
• Part de marché - France
–
–
–
–
Google
Yahoo
Voila
Msn
69,18%
7,05%
6,05%
5,93%
• Part de marché - Monde
–
–
–
–
–
Google
Yahoo!
MSN
AOL
Ask Jeeves
44.8%
23.05%
12.09%
6.1%
6.1%
• Part des médias
–
–
–
–
Google
Yahoo!
MSN Search
Exalead
2,28
0,96
0,74
0,07
annonces
annonces
annonces
annonces
par
par
par
par
semaine
semaine
semaine
semaine
o Acteur français : performant mais trop discret !
Groupe de discussion - 15/12/2005
5
Spécialisation des outils de recherche
• Shopping
– Froogle
– Kelkoo
– Gooster
(développé par Google)
(français, acheté par Yahoo!)
(indépendant, initié par Netbooster en France)
• Actualités
– Google News
– Moreover
– Feedster
(développé par Google)
(acheté par MSN)
(USA, indépendant, « univers » RSS)
• Livres
– Google Book
– Amazon A9
– Quaero
(développé par Google, ex-Google Print)
(antérieur à Google Print)
(réaction européenne à Google Print)
• Vidéo / audio
– Google Vidéo
– Blinkx
(développé par Google)
(indépendant, reconnaissance vocale)
• Constat : la compétition reste ouverte !
Groupe de discussion - 15/12/2005
6
Apports technologiques des outils spécialisés
• Intégration de multiples sources d'information (Web, XML,
RSS, bases de données,...)
– évolution des méta-moteurs Web
– demande des entreprises, aussi
=> Prise en charge partielle par Retroweb
• Post-structuration de l'information Web crawlée
– utilisé par les moteurs d’actualités, les comparateurs de prix,...
=> Pris en charge par Retroweb
• Extension à de nouveaux types de données (PDF, « Office
», MP3, AVI, PDF,…)
=> Architecture de greffons (plug-ins)
Groupe de discussion - 15/12/2005
7
Forces et faiblesses de Google (1)
• Forces
–
–
–
–
Part de marché dans la recherche Web (visibilité)
Couverture médiatique importante, image de marque
Forte tradition d'innovation
Infrastructure matérielle (réactivité)
• Faiblesses
– Fraîcheur et profondeur (dans certains domaines)
– Manque d'intégration des projets
– Peu d'innovation sur le moteur Web
Exemples
Google répond vite à de mauvaises questions (pas d’aide à la formulation de
requêtes).
Google ne catégorise pas les résultats (pas de distinction entre la voiture
Jaguar, le Mac OS Jaguar, le Jaguar de Francis Weber, le félin Jaguar,…).
Groupe de discussion - 15/12/2005
8
Forces et faiblesses de Google (2)
• Faiblesses (suite) :
– Limites du PageRank atteintes
o Problèmes de spam (Google bombing, fermes à liens)
– « miserable failure » donne « Biography of President George W. Bush »
– Comment ? Coalitions de webmestres !
– Formes « douces » : échanges de liens massifs, fermes à liens,…
o Problèmes liés aux blogs (par exemple)
– Les moteurs de blogs sont optimisés pour le référencement et fortement
interconnectés (bon pour le Pagerank).
Conséquence
La pertinence de Google n’apparaît plus comme une référence.
o L’algorithme du Pagerank perd sa force en cas de maillage faible
Conséquence
L’algorithme perd de sa pertinence en entreprise.
o Par extension : inadéquation hors de la structure Web classique
– Problème pour les actualités, le shopping, etc
– Solution proposée par Google : TrustRank
Groupe de discussion - 15/12/2005
9
Pourquoi cette domination ?
• Le moteur reste globalement rapide et pertinent (peu de
raison de changer)
• La concurrence se démarque peu
• Sortie d’applications « tendances » (blogs, RSS, Ajax, etc)
– Bon en terme d’image
– Voir l’engouement populaire pour l’IPO de Google !
• Lenteur des concurrents à attaquer sur le marché des
liens contextuels
– Position très forte de Google sur le marché de publicité en ligne
• Valorisation de la publicité contextuelle sur le moteur et
sur un réseau étendu de sites affiliés
– Très forte rentabilité, permettant le financement du marketing et de la
recherche appliquée
Groupe de discussion - 15/12/2005
10
Exemple d’outsiders (1)
•
Clusty
–
–
–
•
Exalead
–
–
–
•
requêtes sémantiques
catégorisation des résultats
Trafic : 154.769ème site mondial
A9 / Amazon
–
–
–
•
fonctionnement en métamoteur
catégorisation des résultats
Trafic : 3.807ème site mondial
personnalisation de l'interface +
Ajax
recherches dans le contenu des
livres
Trafic : 1.369ème site mondial
Blinkx
–
–
–
indexation d'audio (dont
podcasts) et de vidéo
reconnaissance de la parole
Trafic : 18.060 ème site mondial
Groupe de discussion - 15/12/2005
11
Exemple d’outsiders (2)
•
Ujiko
–
–
–
–
–
•
Technorati
–
–
–
•
fonctionnement en métamoteur
interface riche en Flash
personnalisation
dimension ludique (niveaux)
Trafic : 139.612ème site mondial
recherche de blogs
« tracking » des messages
Trafic : 735ème site mondial
Seekport
–
–
–
moteur de recherche européen
recherche thématique
Trafic :
o
o
•
67.874ème site mondial (.de)
132.212ème site mondial (.co.uk)
Constats : ces outsiders
bénéficient souvent d’une
popularité appréciable.
Groupe de discussion - 15/12/2005
12
Modèles d’affaires des moteurs de recherche
•
Positionnement payant
–
•
Inclusion XML
–
•
Marginal
Marginal
Publicité contextuelle
–
Modalité :
o
o
–
•
CPClic
CPCall (=> VoIP)
Appliqué par Google, Yahoo!, MSN, Ask
Jeeves,…
Autres :
–
–
Commissions sur les ventes (produits)
Services en entreprise (Exalead, FAST,
Antidot,…)
Groupe de discussion - 15/12/2005
13
Quelques perspectives (1)
• Web sémantique
– Enjeux :
o comprendre ce que l'utilisateur cherche
o comprendre ce que contient l’information
– Formes :
o reformulation des requêtes
o crawlers « intelligents »
o catégorisation automatique
• Web 2.0
– Interactivité (Ajax)
o Exemples :
– A9 (affichage dynamique d'informations sur chaque site de résultats)
– Google Suggest (suggestion de requêtes en temps réel)
o Par extension : interfaces riches (Kartoo et, surtout, Ujiko)
– Coopération entre les utilisateurs
o Ajouter l'intelligence de l'humain à l'automatisme du moteur
o Exemple :
– « folksonomies »
– Communautés
Groupe de discussion - 15/12/2005
14
Quelques perspectives (2)
• Moteurs P2P
– Exemple : JXTA Search (Sun)
– Questions en suspens :
o Réactivité ?
o Bonne solution pour du crawl multimédia (partage de bande passante et de
puissance de calcul) ?
• Algorithmes Open Source
– Idée : Algorithme de ranking intrinsèquement robuste
– Problème : infrastructure
– Exemple : Mozdex.com
• Personnalisation
– Personnalisation de l’interface
– Géolocalisation de l’internaute => contenu local mis en avant
• Divers :
–
–
–
–
Ouverture (API)
Ranking complexe : TrustRank, contextualisation,…
Intégration (avec poste de travail notamment)
Prise en charge de nouveaux types de documents
Groupe de discussion - 15/12/2005
15
La suite…
•
Présentation des technologies développées et maîtrisées par le
Cetic dans le domaine de l’extraction, de la structuration et de
l’indexation de contenus Web
•
Exemples de références et de prototypes
•
La « surprise » du groupe de discussion : le moteur de
recherche des contacts du Cetic
Groupe de discussion - 15/12/2005
16
Questions ?
Groupe de discussion - 15/12/2005
17
Téléchargement