Bonjour,
à priori ta démarche est logique : plus on restreint à un RN les seules
données dont il a besoin, meilleurs doivent être les résultats. Le seul
risque est d'écarter une info qui peut servir au RN, mais si tu peux
déterminer qu'une info ne sert pas, alors tu as raison de l'exclure du RN.
De toute façon, il n'y a pas de mystère dans un RN : regarde d'abord si le
taux d'apprentissage est suffisant, et ensuite regarde si le taux de
prédiction est bon. Si le taux d'apprentissage chute lorsque le nombre
d'échantillon augmente, ou bien si le taux de prédiction n'est pas
supérieure à la simple loi des probabilités, alors c'est que l'information
sélectionnée est aléatoire, c'est-à-dire non pertinente pour résoudre le
problème. Il faut faire attention aussi à la représentativité de
l'apprentissage : par exemple un simple tri des échantillons en entrée peut
faire chuter le taux d'apprentissage, simplement du fait qu'un tri constitue
une perturbation de la représentativité des échantillons.
a+,
-------------------------------------------------------
Patrice Dargenton
patrice.dargenton@free.fr
http://patrice.dargenton.free.fr/index.html
-------------------------------------------------------
"tripacer" <xavier.gallet@gmail.com> a écrit dans le message de news:
1164119578.787455.154970@h54g2000cwb.googlegroups.com...
Bonjour à tous,
Voici le problème auquel je suis confronté actuellement avec mon
réseau de neurones (RN) :
Au départ, j'ai 2 groupes de molécules différentiées par un
caractère (1 groupe possède ce caractère, l'autre non).
Je voudrais par la suite construire un RN capable de prédire ce
caractère pour tout autre groupe de molécules.
Pour cela, j'ai calculé un grand nombre de caractéristiques
moléculaires pouvant discriminer le caractère recherché. Pour ne pas
devoir inclure toutes ces caractéristiques dans le RN, et donc pour
minimiser le nombre de neurones en entrée, j'ai utilisé plusieurs
tests statistiques pour identifier les caractéristiques les plus
discriminantes (p<<<0.05).
Par la suite, j'ai donc utilisé les valeurs de ces caractéristiques
discriminantes en entrée dans mon RN. Je
pensais qu'un tel réseau serait beaucoup plus facile à optimiser avec
des valeurs d'entrée déjà discriminantes.
Or d'après mes premiers tests, ce n'est pas du tout le cas. Ou ai-je
commis une erreur ? le résultat sera t-il le même si j'utilise en
entrée à la fois des valeurs discriminantes et non discriminantes ?
Plus généralement, comment "sélectionner" les données à utiliser
en entrée d'un RN lorsque l'on dispose d'un large choix de données
utilisables... et faire en sorte que l'apprentissage du RN soit
possible ??
A noter que mes valeurs en entrée sont bien normalisés (entre 0 et 1)
Merci d'avance pour vos réponses.
Cordialement,
GX