Interview de Veronique Mesguich et Armelle Thomas

Jeudi 1 juin 2006 à 10:06
Publié dans la catégorie Interviews

Les auteures du guide Net Recherche dressent l’etat des lieux des outils et techniques de recherche sur Internet. Une photographie d’une science en perpetuelle mouvement.

D’o๠vous est venue l’idée de ce livre ?
Véronique Mesguich et Armelle Thomas. De notre expérience commune de formatrices et de professionnelles de la recherche d’informations. Nous voulions rendre compte de l’évolution des outils de recherche et de l’émergence du web social et montrer la multitude d’outils et de solutions existantes sur le Web. Et sur l’Internet de façon plus générale.

A-t-on une idée précise du nombre de pages existantes aujourd’hui sur Internet ?
Non : il est très difficile d’estimer le nombre de pages, en raison du développement du Web dynamique, et du manque d’études fiables sur le sujet. On estime actuellement (très grossièrement) à  au moins une soixantaine de milliards, sachant que les grands moteurs en indexeraient environ 20 milliards. Mais cela reste peut-être très en deçà  de la réalité.

Existe-t-il des différences techniques entre les annuaires, les moteurs et les métamoteurs ?
Les annuaires sont produits par des personnes sur la base de classifications pré-établies. Les moteurs travaillent de manière automatique en indexant le texte intégral des pages. Les méta-moteurs, quant à  eux, ne maintiennent pas d’index, mais permettent de rechercher simultanément dans les index de plusieurs outils. On constate une baisse très importante de l’utilisation et de la maintenance/mise à  jour des grands annuaires généralistes. Les moteurs sont rois…

Que pensez-vous du projet Quaero?
Concernant Quaero, ne confondons pas l’outil et le contenu…L’idée d’un moteur multimédia est intéressante, mais il est clair qu’il y a actuellement un déficit important de communication sur le projet qui apparaît plus comme un projet de recherche alors qu’il avait été présenté comme un “concurrent” potentiel de Google.

Que pensez-vous de l’initiative visant à  financer le moteur de recherche Exalead ? A-t-elle une réelle chance d’aboutir à  un concurrent de Google ?
On attend avec impatience les premières réalisations concrètes de Quaero ! Un des acteurs moteurs du projet, Exalead, propose déjà  sur le Web un moteur à  la technologie innovante. François Bourdoncle (pdg d’exalead) lui même affirme l’inverse et insiste sur la dimension “indexation et recherche multimédia” du projet.

Nous ne pensons pas qu’il soit nécessaire forcément de vouloir développer un concurrent de Google. Le blog de Loïc LeMeur revient également sur les “10 raisons pour lesquelles Quaero ne marchera pas”. On y retrouve des commentaires fort intéressants !

Les moteurs se classent-ils en différentes générations. Si oui, quelles différences entre eux ?
A l’heure actuelle il en existe trois. La première, à  laquelle appartiennent des outils comme Altavista, Hotbot ou Lycos sont des outils qui ont évolué vers des portails généralistes, caractérisés par des algorithmes de pertinence assez basiques. La deuxième génération (Google et ses clones) est en rupture avec la première génération du fait d’algorithmes basés sur la popularité des pages, et le recentrage sur la fonction de recherche.

Exalead, Kartoo, Ask, Mozbot sont les outils dits de troisième génération. Ils n’entrent pas en concurrence avec la génération précédente mais la complètent : ils proposent une interface ou des fonctionnalités originales (cartographie, classification automatique, personnalisation, recherche contextuelle…). On attend encore la quatrième génération…

Les principaux moteurs se livrent une guerre féroce à  coup de nouveautés. Quels outils sont vraiment utiles à  la recherche ?
Finalement, on a assez peu de nouveaux outils généralistes, le ticket d’entrée étant aujourd’hui assez élevé (n’importe qui ne peut pas aujourd’hui créer un nouveau moteur dans un garage.. Quoique…). Certaines fonctions comme la personnalisation relèvent plus de la fidélisation marketing que d’un réel intérêt pour la recherche, tout au moins à  l’heure actuelle, car la personnalisation a une énorme marge de progrès.

En revanche, les technologies de clustering par exemple sont vraiment intéressantes dans le cadre de certaines stratégies de recherche, par exemple quand on part à  la découverte d’un sujet… La cartographie quant à  elle peut permettre d’avoir une vue d’ensemble sur un sujet, mais elle fonctionnera d’autant mieux que le contenu est homogène. D’autres fonctions enfin sont très utiles, comme de nouvelles possibilités de recherche multimédia ou multilingue, les résumés automatiques ou la pré-visualisation.

La pertinence des résultats dépend-elle de l’interrogation ou de l’indexation de la page ?
Les deux. Il s’agit pour les webmasters de concevoir des pages adaptées au mode de référencement des moteurs, et pour les utilisateurs d’employer les bons mots clés et de savoir abandonner par moments l’interrogation d’un moteur pour la navigation et l’exploration des liens. Il faut tenir compte du fait que la pertinence est souvent “polluée” par la fraude à  l’indexation (spamdexing) ou les liens commerciaux, et que depuis l’apparition du pagerank de Google, le calcul de la pertinence est lié à  la popularité des pages.

Existe-t-il des outils permettant des classements automatiques de contenus Web ou de résultats de recherche sur des moteurs en fonction d’ontologies générales ou spécifiques?
Sur le web, on a peu d’exemples de ce type de technologies (classement automatique sur des catégories pré-définies, à  la différence du clustering o๠le classement est dynamique a posteriori) : la seule application à  notre connaissance se fait sur les catégories du Open Directory (mais ce n’est pas vraiment une ontologie) avec Exalead, par exemple.

Si vous aviez 5 conseils à  donner pour bien chercher, quels seraient-ils ?
1. Savoir questionner : utiliser des mots clés appropriés, quitte à  affiner la recherche par étapes 2. Maîtriser les options de recherche avancées des moteurs 3. Aller chercher l’information directement à  sa source de production 4. Etre agile, savoir rebondir d’un site à  l’autre et d’un outil à  l’autre. Multiplier les angles de vue sur un sujet 5. Croiser, évaluer, qualifier l’information, ne pas réinventer la roue à  chaque fois, s’appuyer sur l’expertise des autres… Un sixième conseil pourrait être d’exploiter à  fond ce qu’on a trouvé avant de repartir en recherche, utiliser au besoin un outil de capture automatique (Netsnippets, E-gems…). Bref, ne pas “papillonner”

O๠peut-on se procurer votre ouvrage ?
Sur le site de la FNAC, Amazon, dans les librairies spécialisées (Teckne, Eyrolles…). L’ouvrage est édité par l’ADBS (Association des professionnels de l’Information) et peut être commandé en ligne (www.adbs.fr). Il est diffusé par Lavoisier.

L’interview complète sur Journal du Net : Véronique Mesguich et Armelle Thomas

Partager cet Article :

  • Digg
  • del.icio.us
  • Facebook
  • Google
  • Netvibes
  • Technorati
  • Wikio FR
  • E-mail this story to a friend!
  • PDF
  • RSS
  • Tumblr
  • Twitter

Ajouter mon commentaire