Guest mahi Posté 27 Avril 2006 Partager Posté 27 Avril 2006 (modifié) Bonjour, il y a 2 ans je cherchais un annuaire de lien neutre et j'avais aperçu sur le site de free qu'il avait installé le script dmoz. j'ai donc fait la même chose, seulement voila maintenant je me retrouve avec 1 milion de pages dynamiques référencées (600 000 il y a 1 mois) et en moyenne un crawl de 10000 à 20000 pages par jour. Jusqu'ou cela peut il aller. Dois-je mettre un fichier robot.txt pour empêcher ce crawl. merci de vos conseils. Modifié 27 Avril 2006 par mahi Lien vers le commentaire Partager sur d’autres sites More sharing options...
kot Posté 27 Avril 2006 Partager Posté 27 Avril 2006 Je ne comprends pas ta question, alors j'aimerai enrichir mes connaissances: c'est quoi le "script dmoz" Le site avec 10000 pages par jour crawlée, c'est ton site en signature? Lien vers le commentaire Partager sur d’autres sites More sharing options...
Guest mahi Posté 27 Avril 2006 Partager Posté 27 Avril 2006 salut, c'est un script qui te permet d'afficher cet annuaire http://dmoz.fr/ Lien vers le commentaire Partager sur d’autres sites More sharing options...
Régis Posté 27 Avril 2006 Partager Posté 27 Avril 2006 (...) c'est quoi le "script dmoz" (..) Bonjour "kot", Voici une page qui pourra probablement t'éclairer : Comment obtenir les données de l'ODP ? (Open Directory Projecct (DMOZ)) Lien vers le commentaire Partager sur d’autres sites More sharing options...
Jan Posté 27 Avril 2006 Partager Posté 27 Avril 2006 Bonjour, Tout dépend de ton hébergement. Il faut qu'il soit dimensionné en fonction de ton trafic. Pas seulement du crawl des robots, mais aussi du trafic des visiteurs, qui - je l'espère pour toi - est plus important que celui des bots Ceci dit, il faut parfois être sélectif à l'égard des robots. Il y en a des "bons" (ceux de google, msn, yahoo et quelques autres outils de recherche) et certains autres qui abusent de ta bande passante sans t'apporter un seul visiteur, voire pour aspirer tes pages. Une fois les robots nuisibles identifiés, tu peux les bannir par .htaccess: http://www.webmaster-hub.com/publication/article5.html Lien vers le commentaire Partager sur d’autres sites More sharing options...
Guest mahi Posté 28 Avril 2006 Partager Posté 28 Avril 2006 merci jan pour l'info mais c'est justement ces bons robots qui indexent. Lien vers le commentaire Partager sur d’autres sites More sharing options...
Sujets conseillés
Veuillez vous connecter pour commenter
Vous pourrez laisser un commentaire après vous êtes connecté.
Connectez-vous maintenant