Bonjour.
Je réponds à Lambda <lambda_designs@hotmail.com>
qui dans dnf4cv$ptt$1@news.Stanford.EDU a écrit :
Patrick 'Zener' Brunet wrote:
Et si vous essayez d'affiner la recherche en ajoutant un mot-clé tel
que étude ou statistique, vous allez perdre tous les bons hits qui
utiliseraient un synonyme.
Les moteurs de recherche actuels étendent la recherche à des
synonymes.
Probablement, mais ça nous ramène au problème de la duplicité des mots...
Comment doit être défini le domaine sémantique dans lequel chercher un
synonyme utile ? Selon l'acceptation la plus "populaire" ?
Voyez cette page pour le principe:
http://fr.wikipedia.org/wiki/Quark_(particule)
C'est pourquoi je proposais plus haut un autre système de classement.
Il faut bien comprendre que la recherche en mode plein texte ne fera
pas mieux tant que l'IA ne permettra pas de réellement modéliser la
sémantique du texte à indexer, avec un niveau de recul pour en
comprendre la motivation (voire un autre pour évaluer la qualité
selon cet objectif deviné).
Ce qui, vu les masses de documents à indexer, n'est pas raisonnable
dans un avenir "proche" (entendez par là dans les 3 ou 4 ans qui
viennent, au minimum). On met plusieurs secondes à parser des phrases
bien formées, et avec un taux d'erreur non négligeable, et sans même
s'intéresser à la sémantique mais simplement à avoir une idée de
l'organisation de la phrase. Parser une page web en entier prend
raisonnablement au moins une minute (pour une page assez courte),
imaginez la vitesse d'indexation du web que l'on pourrait avoir
aujourd'hui dans un moteur de recherche qui ferait ça ?
Exactement, la voie est mauvaise, c'est pourquoi j'insiste:
C'est pourquoi je proposais plus haut un autre système de classement.
Actuellement je suis en train de mettre au point une architecture de site
Web dans lequel toute l'intelligence est déportée sur le serveur (donc les
pages sont adaptées +/- sur mesure, et sont donc pratiquement statiques).
Dans ces conditions, récupérer le robot d'indexation à l'entrée et lui
imposer une visite guidée ne pose pas de problème technique (sauf pour les
robots pirates, mais ceux-là peuvent aller dans le décor, ça ne me gêne
pas).
Et là il devient intéressant de se demander s'il est pertinent de donner au
robot le texte brut à analyser, ou plutôt une version de la page adaptée
pour l'indexation "intelligente". Le but n'est pas de faire de la présence
pour une recherche quelconque, mais de se placer précisément pour une
recherche particulière - oui, je sais, cet objectif est un peu à
contre-courant :-)
Dans ces conditions, pouvoir qualifier simplement une page selon les
critères que je citais au début de cette discussion (notamment le thème
principal et le type d'intention) serait très intéressant.
Et si un tel standard se faisait jour, il pourrait s'imposer rapidement,
selon la même logique que les qualifications du W3C : peu de gens ont
vraiment intérêt à un Web poubelle.
Ce qui rendrait alors cette démarche de moins en moins à contre-courant...
Cordialement,
--
/***************************************\
* Patrick BRUNET
* E-mail: lien sur
http://zener131.free.fr/ContactMe
\***************************************/