sparh Posté 28 Janvier 2008 Posté 28 Janvier 2008 Bonjour, dans le cadre de mon boulot je dois aspirer notre site internet qui est en asp. Autre détail important, nous utilisons de multiples sous-domaine (au moins 10) et je dois tous les récupérer. J'ai trouvé httrack et je l'ai laissé tourner tout le week end. Le problème, impossible de rester sur le site, le logiciel part directement dsans les méandre du web. Y'a t'il un moyen de configurer httrack pour qu'il visite tous les sous domaines d'un site mais ne visite pas les domaines externes? Auriez vous une solution, même payante pour aspirer un site? Merci d'avance
Wefficient Posté 28 Janvier 2008 Posté 28 Janvier 2008 De mémoire avec HTTrack tu peux le configurer pour qu'il ne sorte pas du domaine initial (pas suivre les liens externes) tu peux même lui indiquer jusqu'a quelle profondeur de lien il doit aller (genre pas plus de 3 liens de la page visée)
sparh Posté 28 Janvier 2008 Auteur Posté 28 Janvier 2008 Oui merci, je l'ai configuré pour ne suivre qu'1 lien externe et 10 en profondeur interne et rien à faire, à chaque fois il m'aspire la moitié du web (des dizaines et des dizaines de sites externes) J'ai recherché si il y avait des problèmes connuent avec HTTtrack et je n'ai rien trouvé? Quelqu'un aurai une idée?
Dan Posté 28 Janvier 2008 Posté 28 Janvier 2008 Il suffit de le configurer pour qu'il ne suive aucun lien externe (mettre 0 et non 1), non ?
sparh Posté 28 Janvier 2008 Auteur Posté 28 Janvier 2008 Merci Dan mais j'ai essayé aussi (avec 0) et là il s'arrète tout de suite (car il ne prends pas en compte les sous domaines or notre site est composé de multiples sous-domaine). Y'a t'il une solution payante ?
Dan Posté 28 Janvier 2008 Posté 28 Janvier 2008 Dans ce cas tu n'as pas d'autre possibilité ... il faudra lancer une instance de httrack pour chaque sous-domaine, en laissant la valeur à zéro. Ou alors, fais un essai en mettant domaine.tld plutôt que www.domaine.tld. En restant sur domaine.tld, tu devrais prendre les sous-domaines, même avec external links à zéro.
Magicoyo Posté 28 Janvier 2008 Posté 28 Janvier 2008 Tu peux essayer de lui coller les 10 sous domaine dans la liste des URLs à crawler, en spécifiant de ne pas suivre les liens externes bien entendu.
sparh Posté 28 Janvier 2008 Auteur Posté 28 Janvier 2008 Merci pour vos réponses, je vais essayer ce que vous me conseillez
sparh Posté 28 Janvier 2008 Auteur Posté 28 Janvier 2008 (modifié) Pour info, ça à l'air de fonctionner, j'ai mis l'exploration de site externe à 0, le nombre de lien interne à 20 (maximum) et j'ai mis comme urls de départ une url de chacun des nom de domaines. Et ça a l'air de fonctionner Modifié 28 Janvier 2008 par sparh
Sujets conseillés
Veuillez vous connecter pour commenter
Vous pourrez laisser un commentaire après vous êtes connecté.
Connectez-vous maintenant