Christophe Raverdy escribió:
Bonjour.
Je programme en ce moment un utilitaire me permettant de gérer une base
documentaire à partir d'expressions régulières.
Je n'ai aucun problème pour les expressions régulières par contre la base
documentaire est problématique en ce que l'essentiel des fichiers est au
format word.
Je voudrais donc pouvoir récupérer le document (je sais faire) et le
transmettre par exemple à une API d'openffice afin de convertir le document
word en texte brut. Bien entendu s'il existe s'il existe une méthode plus
efficace je suis preneur.
J'aurais donc aimé connaître les prérequis (principalement sous windows),
les API et leur mode d'emploi.
Par avance, merci.
dans quel cadre tu dois faire ca?
Il y a pleins de version de fichier word et il faudrait que tu sois toutes capable de les parser...
Ton application devient beaucoup plus qu'un truc en PHP.
En gros ton premier probleme, c'est d'arriver a parser des .doc (dans toutes les versions de word).
Je viens de googleler deux secondes et je trouve ca:
http://poi.apache.org/
Ca devrait pas mal t'interesser, mais bon c'est pas une solution apelable depuis PHP comme ca.
Apres pour faire des recherches frequentes dans une base de .doc tu peux pas te permettre de tout reparser a chaque fois pour des raisons evidentes de performances.
Il faudrait construire une base de donnes avec l'arborescence de tous les fichiers, leur derniere date de modification, et un ensembles de tables pour pouvoir rechercher des mots clefs a l'interieur (des regexps ca me semble presque impossible pour des performances potables, sauf si c'est des regexp sur des mots isoles, dans ce cas pas de probleme).
Tu fait ensuite tourner un programme sur le serveur qui tiens a jour la base de donnes, et tu fais tes recherches dans cette base de donnes.
C'est surement pas le meilleur exemple, mais perso j'avais regarde la base de donnee de phpBB2 a l'epoque pour comprendre comment faire des recherches rapides.
En tout cas, bon courage.