fr . comp . ia


Service Usenet Gratuit - You The Net .Com Consultez les groupes de news usenet nntp avec www.youthenet.com Postez et suivez voos fils de discussions gratuitement avec you the net .com le service gratuit de news en ligne

Re: Inintelligence artificielle, ou b ien choix cyber-démocratique ? sur Fr Comp Ia



Groupes les plus fournis
hierachie de merde comp mail serveurs tv tnt lettres langues-anciennes grec usenet-fr emile durkheim comp sys mac programmation lettres langues-anciennes latin usenet usages rec tv series petites-annonces rencontres comp usenet lecteurs-de-news informations comp lang perl sci astronautique comp os unix mac rec sport arts-martiaux comp stockage sci linguistique rec arts musique jazz rec photo materiel


Derniers posts youthenet
Re: Démission pour création d'entreprise commerce ou service Que pensez-vous de la doctrine de James Madison ? Re: envoi des données à un serveur html la demeure du chaos Re: Alice au pays de Free (d'après la t ribune) Re: Est-ce ue violation de la GPL? Re: L'ultra libéralisme du chemin de fer prôné par Sarkozy... Président langue de bois ? la compagnie de l'autre

actualité

Regard approfondi sur sept grandes professions de la santé
CNW Telbec (Communiqué de presse) - Il y a 12 heures
Infirmières autorisées << - La main-d'oeuvre chez les IA a connu une croissance constante de près de 2 % par année sur six ans; il y avait 257 961 IA en ...
source

actualité

Mot de passe
Factornews - 30 nov 2008
Et même à ces endroits, évitez les man'uvres de contournement : l'IA a déjà du mal dans un espace de trois mètres de large, alors si vous vous mettez à ...
source

Accueil |  Ajouter aux Favoris |  Inscription |  connexion |  Flux RSS de fr.comp.ia |

fr . comp . ia

Re: Inintelligence artificielle, ou b ien choix cyber-démocratique ?



accueil . fr . comp . ia




Re: Inintelligence artificielle, ou b ien choix cyber-démocratique ?

   
Sujet: Re: Inintelligence artificielle, ou b ien choix cyber-démocratique ?
De: lambda_designs (l' arobase) hotmail.com (Lambda)
Groupes: fr.soc.politique, fr.comp.ia
Date: 11. Dec 2005, 02:10:14
Patrick 'Zener' Brunet wrote:
Bonjour.

Je réponds à Lambda <lambda_designs@hotmail.com>
après quelques itérations vaut quasiment 1. Un système de robot
guidant les moteurs n'aiderait pas du tout de ce point de vue-là. Au
contraire, un peu de malice dans la réalisation d'un système qui
ferait ça permettrait sans doute un spamming plus efficace...


C'est à double tranchant. Etes-vous allé visiter la page lien que spécifie
ma signature ?


Non... Je n'y manquerai pas à l'avenir, mais là j'ai vraiment pas le temps je dois avouer, en fait si je réponds à ces posts c'est vraiment juste pour ne pas me replonger dans mon boulot...

Par contre, offrir aux moteurs de recherche le contenu du site en
version "préparsée" pourrait avoir d'intéressants avantages. Mais
comment savoir si on peut se fier au parsing proposé ? L'une des
techniques de spam est d'avoir deux versions de la page : celle qui
est retournée au moteur de recherche, et celle qui est retournée à
l'utilisateur humain. ce serait rendu plus facile avec ce type
d'approches... mais je pense que le jeu en vaudrait la chandelle.


Déjà dans le principe je ne crois pas aux pages-fleuves, et donc je
préconise volontiers qu'une page traite d'un point précis. A quoi sert le
principe de l'hypertexte si on fait une seule page de 10000 lignes ?

Il peut y avoir une très longue page (un article de wikipedia par exemple ?) avec une très belle mise en forme html, des liens par section, des renvois en haut de la page, etc. qui facilitent la lecture bien plus que si on doit cliquer sur un lien toutes les 10 secondes (surtout pour nos amis à modem...)
Mais je ne vois pas réellement le rapport avec ce que je dis à ce moment-là... Une version parsée des pages, stockée sur le serveur, permettrait d'alléger le crawler de cette tâche fastidieuse, et ainsi d'avoir les avantages d'une indexation basée sur la sémantique des phrases, sans en avoir les inconvénients... Le volume d'une telle page est linéaire en fonction de la longueur du texte d'origine (d'un facteur qui est à peu près quadratique en la longueur moyenne des phrases, par contre)


Donc ensuite résumer ça en mots-clés et ne montrer que ça quand c'est un
robot qui visite me paraît une évidence.


A un détail près : quand ma recherche ne donne pas ce que je veux, j'utilise une requête "texte exact" avc un morceau de phrase. J'ai de forts doutes sur le fait que tu imagines toujours les requêtes que les gens font pour arriver sur ta page...


Par contre, il faudrait revoir intégralement la façon dont on conçoit
l'indexation du web qui est généralement une approche type "bag of
words" à peine améliorée.

Avec ce qui précède, même si le robot est très con, il ne prendra que ce
qu'il trouvera et ce sera garanti représentatif.
Par contre bien sûr ça représente une vraie conception de la part du
concepteur, et ça va passer pour de la régression sociale aux yeux des
amateurs qui se contentent de mettre leur texte en ligne en l'état.


Les "amateurs" qui mettent leur texte en ligne en l'état permettent de fournir un volume énorme d'information sur le web, entre autres par leurs articles scientifiques publiés en PDF. Et effectivement, je pense qu'ils n'auraient pas [tous] le temps de remettre ça en joli html.
Mais je ne vois pas en quoi ça joue dans ce que tu dis si justement ton robot indexe lui-même son site...


Inversement, le placement pour une recherche particulière est déjà
possible : c'est à ça que servent les mots-clés qu'on peut entrer dans
les en-têtes de la page.

Pas très d'accord du fait des multiples sens parasites que peut prendre un
mot, et aussi des mots qui sont systématiquement éliminés parce que l'une de
leurs interprétations est un article ou autre mot non-discriminant.

Donc, à moins de pouvoir se baser sur une expression exacte (difficile du
fait des conjugaisons et autres accords) ou d'avoir la chance de tomber sur
un mot très peu divergent tel que deuteranomalie par exemple, rien ne vaut
la spécification d'un "namespace" ou de mots possédant un rôle prédéfini.

Le robot qui renverrait les mots-clé, ne peut pas faire mieux que ce que tu saurais faire à la main dans tes en-têtes... c'est justement la même chose. Et donc le même résultat.
Les mots trop courants ne sont pas indexés du tout, et supprimés de ta requête autant que de l'index... donc tu ne les regagnerais pas plus en faisant ça.


Par exemple, on pourrait dire (l'exemple de Pascal Bourguignon):

TypeDoc:technique ; accident avion
...et ça ne rendrait que des documents de type "étude technique", pas de
roman, ni de trailer de film, ni de biographie, ni de pub d'assurance...
Il manque juste une petite nomenclature normalisée des types de documents,
et une admission contrôlée des pages qui prétendent l'utiliser (je n'ai pas
dit que c'est facile, mais à terme c'est le seul moyen de donner de la
valeur à l'information).


En fait... Ca existe. Il y a moyen de spécifier beaucoup de choses dans les en-têtes des pages web... et ça ne sert strictement à rien. Pourquoi ? Parce que 99.99% des pages n'ont pas ce type d'en-têtes... Et que par conséquent, vu du moteur de recherche, il ne faut pas attribuer trop de poids à ces indices. Là encore, c'est à double tranchant... Mais si on veut imposer une condition du type "faut que votre page contienne cet en-tête", soit on se fait dépasser par la concurrence qui n'impose pas ça (et donc indexe largement plus de pages) soit par les spammeurs qui se disent "chouette, une bonne occasion d'avoir de nombreuses pages indexées sur un système qui indexe peu de page... donc une plus forte proportion de mes pages seront renvoyées".

Mais il faut se poser la vraie question: un vendeur de service d'indexation
a-t-il vraiment intérêt à indexer de la .erde ?

Ah non, bien au contraire... un vendeur de service d'indexation ne veut surtout pas indexer de la merde. Mais c'est un des plus gros problèmes aujourd'hui dans le développement des moteurs de recherche, que d'arriver à éliminer les pages de spam.


Date Sujet  Auteur
13.11. * Inintelligence artificiellejr
14.11. `* Re: Inintelligence artificielle, ou bien choixPatrick 'Zener'
07.12.  `* Re: Inintelligence artificielle, ou bien chovictorfelder@gm
07.12.   +- Re: Inintelligence artificielle, ou bien cPascal Bourguig
08.12.   `* Re: Inintelligence artificielle, ou bien cPatrick 'Zener'
10.12.    `* Re: Inintelligence artificielle, ou b ieLambda
10.12.     `* Re: Inintelligence artificielle, ou biPatrick 'Zener'
10.12.      `* Re: Inintelligence artificielle, ou Lambda
11.12.       `* Re: Inintelligence artificielle, oPatrick 'Zener'
11.12.        `* Re: Inintelligence artificielle,Lambda
14.12.         `* Re: Inintelligence artificiellPatrick 'Zener'
14.12.          `- Re: Inintelligence artificiePatrick 'Zener'
Derniers articles
petites-annonces informatique autos mitsubishi jobs offres jobs demandes jobs d jobs rec genealogie soc politique soc religion rec sport automobile petites-annonces divers hierachie de merde comp usenet serveurs comp sys palm-pilot bio medecine

Derniers messages
petites-annonces informatique autos mitsubishi jobs offres jobs demandes jobs d jobs bio general rec boissons vins rec genealogie rec aquariophilie soc religion bio medecine soc politique soc alcoolisme rec arts litterature

actualité

Regard approfondi sur sept grandes professions de la santé
CNW Telbec (Communiqué de presse) - Il y a 12 heures
Infirmières autorisées << - La main-d'oeuvre chez les IA a connu une croissance constante de près de 2 % par année sur six ans; il y avait 257 961 IA en ...
source

actualité

Midnight Club Los Angeles, le test
Caradisiac.com - 30 nov 2008
Perdre une course que l'on a sur-performé pour un virage que l'IA prends de façon irréelle alors qu'elle n'a été qu'un fantôme derrière vous pendant 4mn ...
source


 




Copyright 2008 ©  - YouTheNet.com

| Tee von Yunnan und Ginseng |