MarvinLeRouge Posté 9 Janvier 2012 Posté 9 Janvier 2012 Salut, Voilà, je suis sur un projet qui implique la création d'un moteur de recherche sur documents, et celui-ci devra indexer des documents word, excel, et pdf. Certains ont-ils des retours d'expérience ou des conseils à ce sujet, svp ? Merci
yuston Posté 9 Janvier 2012 Posté 9 Janvier 2012 Salut, en PHP/MySQL on pourrait faire un recherche fulltext après avoir indexé et nettoyé les documents. C'est pas très difficile à faire mais a comme désavantage d'être de moins en moins performant au fur et à mesure que le nombres de documents indexés augmente. Sinon, il y a la solution Sphinx écrit en C++ mais qui fournit une API PHP pour exploiter le moteur : http://sphinxsearch.com/ Je n'ai pas utilisé Sphinx personnellement mais quand je me suis penché sur la réalisation d'un moteur de recherche, Sphinx est celui qui souvent considéré comme un des meilleurs dans les benchmark (rapidité, légèreté). Il est opensource en plus. Sinon, je sais pas plus mais suis content si tu partages la solution définitive que tu vas adopter
Dan Posté 10 Janvier 2012 Posté 10 Janvier 2012 Le Hub utilise Sphinx, avec une réactualisation de la base toutes les 10 minutes. J'en suis très satisfait.
MarvinLeRouge Posté 10 Janvier 2012 Auteur Posté 10 Janvier 2012 En revanche, ça n'a pas l'air fait pour indexer du doc, xls, pdf (ou alors j'ai raté un truc sur leur site).
SStephane Posté 10 Janvier 2012 Posté 10 Janvier 2012 Mnogosearch => http://www.mnogosearch.org/ Il indexe avec un robot perl par contre il est très efficace.
MarvinLeRouge Posté 11 Janvier 2012 Auteur Posté 11 Janvier 2012 Et c'est pas trop prise de tête à installer ? Je demande ça car j'avais lu quelque part que ça faisait très ... maison construite avec des graviers et sans mortier.
SStephane Posté 12 Janvier 2012 Posté 12 Janvier 2012 Pas vraiment, j'ai jamais eu à m'en plaindre, cela dit je m'en sers de moins en moins.
MarvinLeRouge Posté 12 Janvier 2012 Auteur Posté 12 Janvier 2012 Je regardais du côté des solutions de type pdftotext, et les résultats obtenus sont très différents en termes de qualité d'un script à l'autre, mais l'exe de xpdf donne sur mon lot de test des résultats beaucoup plus crédibles que les autres (mais ça suppose une machine sur laquelle on puisse installer et lancer un programme externe au script).
Sujets conseillés
Veuillez vous connecter pour commenter
Vous pourrez laisser un commentaire après vous êtes connecté.
Connectez-vous maintenant