Aller au contenu

Moteur de recherche php avec indexation word, excel et pdf


Sujets conseillés

Posté

Salut,

Voilà, je suis sur un projet qui implique la création d'un moteur de recherche sur documents, et celui-ci devra indexer des documents word, excel, et pdf.

Certains ont-ils des retours d'expérience ou des conseils à ce sujet, svp ?

Merci

Posté

Salut, en PHP/MySQL on pourrait faire un recherche fulltext après avoir indexé et nettoyé les documents. C'est pas très difficile à faire mais a comme désavantage d'être de moins en moins performant au fur et à mesure que le nombres de documents indexés augmente.

Sinon, il y a la solution Sphinx écrit en C++ mais qui fournit une API PHP pour exploiter le moteur : http://sphinxsearch.com/

Je n'ai pas utilisé Sphinx personnellement mais quand je me suis penché sur la réalisation d'un moteur de recherche, Sphinx est celui qui souvent considéré comme un des meilleurs dans les benchmark (rapidité, légèreté). Il est opensource en plus.

Sinon, je sais pas plus mais suis content si tu partages la solution définitive que tu vas adopter :)

Posté

Le Hub utilise Sphinx, avec une réactualisation de la base toutes les 10 minutes.

J'en suis très satisfait.

Posté

Et c'est pas trop prise de tête à installer ? Je demande ça car j'avais lu quelque part que ça faisait très ... maison construite avec des graviers et sans mortier. :whistling:

Posté

Je regardais du côté des solutions de type pdftotext, et les résultats obtenus sont très différents en termes de qualité d'un script à l'autre, mais l'exe de xpdf donne sur mon lot de test des résultats beaucoup plus crédibles que les autres (mais ça suppose une machine sur laquelle on puisse installer et lancer un programme externe au script).

Veuillez vous connecter pour commenter

Vous pourrez laisser un commentaire après vous êtes connecté.



Connectez-vous maintenant
×
×
  • Créer...