Patrick 'Zener' Brunet wrote:
Actuellement je suis en train de mettre au point une architecture de site
Web dans lequel toute l'intelligence est déportée sur le serveur (donc les
pages sont adaptées +/- sur mesure, et sont donc pratiquement statiques).
Dans ces conditions, récupérer le robot d'indexation à l'entrée et lui
imposer une visite guidée ne pose pas de problème technique (sauf pour les
robots pirates, mais ceux-là peuvent aller dans le décor, ça ne me gêne
pas).
Et là il devient intéressant de se demander s'il est pertinent de donner au
robot le texte brut à analyser, ou plutôt une version de la page adaptée
pour l'indexation "intelligente". Le but n'est pas de faire de la présence
pour une recherche quelconque, mais de se placer précisément pour une
recherche particulière - oui, je sais, cet objectif est un peu à
contre-courant :-)
Dans ces conditions, pouvoir qualifier simplement une page selon les
critères que je citais au début de cette discussion (notamment le thème
principal et le type d'intention) serait très intéressant.
Et si un tel standard se faisait jour, il pourrait s'imposer rapidement,
selon la même logique que les qualifications du W3C : peu de gens ont
vraiment intérêt à un Web poubelle.
Ce qui rendrait alors cette démarche de moins en moins à contre-courant...
Allez, j'enfonce les portes ouvertes, mais finalement faut bien que je fasse semblant d'avoir assimilé le cours sur l'indexation du web sur lequel j'ai un exam mardi...
Le seul petit problème de tout ça, c'est que tout le monde n'est pas beau et gentil (et encore, beau, on s'en fout dans ce contexte). Et que peu de gens ont intérêt à un web poubelle, mais ceux qui le veulent ont un volume de pages difficilement évaluable. Si on prend un moteur d'indexation du web et qu'on n'utilise aucune méthode de random restart, la probabilité de se retrouver sur une page de spam après quelques itérations vaut quasiment 1. Un système de robot guidant les moteurs n'aiderait pas du tout de ce point de vue-là. Au contraire, un peu de malice dans la réalisation d'un système qui ferait ça permettrait sans doute un spamming plus efficace...
Par contre, offrir aux moteurs de recherche le contenu du site en version "préparsée" pourrait avoir d'intéressants avantages. Mais comment savoir si on peut se fier au parsing proposé ? L'une des techniques de spam est d'avoir deux versions de la page : celle qui est retournée au moteur de recherche, et celle qui est retournée à l'utilisateur humain. ce serait rendu plus facile avec ce type d'approches... mais je pense que le jeu en vaudrait la chandelle. Par contre, il faudrait revoir intégralement la façon dont on conçoit l'indexation du web qui est généralement une approche type "bag of words" à peine améliorée.
Inversement, le placement pour une recherche particulière est déjà possible : c'est à ça que servent les mots-clés qu'on peut entrer dans les en-têtes de la page. Les techniques plus avancées pour ça, ironiquement appelées optimisations pour moteur de recherche, sont plus proches des techniques de spam que d'une entreprise philantropique "les gens veulent vraiment visiter ma page".