Aller au contenu

Sujets conseillés

Posté

Bonjour là-dedans :)

Je vous explique mon souci: j'ai un bot nommé ConveraCrawler qui vient indexer les pages d'un de mes sites. Jusque là, pas de quoi fouetter un chat. Sauf que cet animal n'en a strictement rien à faire de la bande passante :angry: De plus, je ne vois pas trop quel est son but.

Pour info:

* bande passante: j'ai un petit script PHP qui enregistre les requêtes dans ma base de données. Là par exemple, dans PhpMyadmin, j'ai un peu plus de 2 pages entières de Convera :huh:

* but: sur le site de ConveraCrawler il est écrit: "The information gathered by ConveraCrawler will be indexed and made accessible via one or more publicly-accessible web sites in the near future." Donc il n'y a pour l'instant aucun site web où l'on puisse visualiser les résultats (et le bot indexe le web depuis plus d'un an: avril 2004). De plus, il est aussi dit sur le site de Convera-tout-court, ceci: "Convera is a leading provider of information infrastructure software products that enable enterprises and government agencies to access, organize and utilize unstructured information." donc il apparaît qu'ils bossent pour les gouvernements et les grandes entreprises (et je me contrefous autant de l'un que de l'autre).

Je pense donc à rajouter ses IPs dans mon htaccess (et/ou de lui associer une belle petite ligne dans robots.txt).

Mais je voudrais votre avis d'abord, car il n'est pas dans mes habitudes de bannir un robot comme çà.

Donc mes questions:

- quelqu'un connaît-il Convera et ConveraCrawler ?

- quelqu'un l'a-t-il déjà banni ?

- pensez-vous que je doive le bannir ?

Merci d'avance :)

PS: Au fait, sur leur site, ils s'excusent par avance des excès de bande passante monopolisée en arguant qu'ils sont pressés d'indexer tout le web. Çà me paraît un peu facile :rolleyes:

Posté (modifié)

Je n'ai pas eu de traces de celui-ci mais j'en ai viré quelques uns qui me prenaient plusieurs gigas de bande passante.

L'un portait le nom de gigabot il me semble, et ne servait qu'à me référencer sur un site américain

Modifié par michaeljack
Posté

/* Dommage: Gigablast est un excellent moteur de recherche sur lequel il est bon d'être indexé. */

Si quelqu'un connaît Convera et/ou ConveraCrawler donc ... :unsure:

Posté
Si quelqu'un connaît Convera et/ou ConveraCrawler donc ... :unsure:

Si tu regardes le fichier robots.txt du Hub, tu verras qu'on ne s'est pas posé la question bien longtemps: Convera est en Disallow: /

Dan

Posté
Si tu regardes le fichier robots.txt du Hub, tu verras qu'on ne s'est pas posé la question bien longtemps: Convera est en Disallow: /

Dan

Tiens, j'avais pas été assez futé pour penser à faire çà ;)

Cela dit, comme le fait remarquer klelugi ([HS] salut :) [/HS]) ce bot se fiche royalement de robots.txt :nono:

Bon, je pense quand même le bannir (via ses différentes IP dans le .htaccess, donc). De toute façon, il m'a déjà indexé toutes les pages, presque :unsure:

Çà ne me ravit jamais de virer un bot de moteur de recherche, mais celui-là est vraiment antipathique au possible.

Merci de vos différentes réponses :)

Posté

En tout cas il respecte le robots.txt du Hub... pas de souci de ce côté là ;)

Mais je reconnais avoir aussi hésité un moment avant de le virer...

Veuillez vous connecter pour commenter

Vous pourrez laisser un commentaire après vous êtes connecté.



Connectez-vous maintenant
×
×
  • Créer...