On Mon, 31 Jan 2005 11:08:16 +0900
Charles Plessy <p-l-e-s-s-y-RemoveDashes@riken.jp> wrote:
Je te répond par des questions :)
Plus elles sont précises, moins je peux répondre. :)
Je ne connais pas gist, mais ta question semble porter sur le
concept de machine learning.
As-tu un autre système à proposer ?
Qu'un algo d'apprentissage? Non, à vue de nez, ça me semble une bonne
idée (sans préjuger des résultats).
Prêt à installer ou simple à compiler comme gist ? Je ne suis pas
nécessairement attaché à celui-ci.
Malheureusement, ça fait trois ans et demi que je ne fais plus dans
les puces. Donc je ne suis pas au courant de ce qui se fait
actuellement.
Meilleur sera ton jeu d'entraînement, meilleurs seront tes
résultats.
Quelle est la tolérance de ces machines ?
Elle est considérée comme « bonne » par la plupart des auteurs. Mais
ça ne donne pas une idée très précise de ce qu'ils veulent dire... :(
Si je prend les exemples négatifs au hasard pour gagner du temps, et
qu'il y a des chances qu'ils soient très légèrement contaminés par
des cas positifs, est-ce que je cours à la catastrophe ?
Une bonne méthode (à mon avis) serait de tirer des cas au hasard sur
l'ensemble de ton jeu de données (nombre à déterminer selon la taille de
tes données et ta patience), puis de les classer manuellement en
positifs et négatifs.
À la limite, si /quelques/ cas t'embêtent, tu peux les laisser de
côté.
Un algo d'apprentissage ne fait rien de plus que ce que son nom
l'indique: il apprend sur les exemples que tu lui donnes. Donc si tu lui
donnes des trucs faux, il te répondra aussi des trucs faux.
Si tes exemples positifs et négatifs sont contradictoires sur une
caractéristique, l'algo laissera de côté cette caractéristique dans sa
prise de décision.
Donc en gros: évite les erreurs.
Si gist te renvoie ce qu'il n'a pas su trier, tu pourras étudier cette
classe avec profit, pour compléter éventuellement ton jeu
d'entraînement.
Oui, du concept même de « machine learning ». Cherche un peu sur
internet avec ce mot, tu devrais trouver des documents synthétiques.
Sinon, je te conseille le livre « Machine learning », Tom M.
Mitchell (McGraw-Hill, 1997).
Damned, encore un truc à lire :)
Tu peux commencer par le web pour te faire une idée.
Le Mitchell est très pédagogique, et commence par parler d'un
algorithme d'apprentissage très simple, qui permet de saisir les
concepts (c'est d'ailleurs la seule partie que j'ai lue très
assidûment). Peut-être qu'en cherchant à « candidate-elimination
algorithm », tu pourras trouver un document équivalent.
Et Russel & Norvig (moins cher), tu en penses quoi ?
Je ne le connais pas.
Cela dit, si tu as regardé le prix du Mitchell sur Amazon US, c'est
normal que tu l'aies trouvé hors de prix (143 USD!!). Il est à 66 EUR
sur Amazon France. Ah, zut, tu écris du Japon?
Tu peux sans honte en proposer l'achat dans ton labo: c'est une
référence en la matière (tous les gens à qui j'ai posé des questions
sur le sujet m'y ont renvoyé).
--
Jérémy JUST <jeremy_just@netcourrier.com>