Aller au contenu

Aspiration d'un site


Sujets conseillés

Posté

Bonjour,

dans le cadre de mon boulot je dois aspirer notre site internet qui est en asp.

Autre détail important, nous utilisons de multiples sous-domaine (au moins 10) et je dois tous les récupérer.

J'ai trouvé httrack et je l'ai laissé tourner tout le week end.

Le problème, impossible de rester sur le site, le logiciel part directement dsans les méandre du web.

Y'a t'il un moyen de configurer httrack pour qu'il visite tous les sous domaines d'un site mais ne visite pas les domaines externes?

Auriez vous une solution, même payante pour aspirer un site?

Merci d'avance

Posté

De mémoire avec HTTrack tu peux le configurer pour qu'il ne sorte pas du domaine initial (pas suivre les liens externes)

tu peux même lui indiquer jusqu'a quelle profondeur de lien il doit aller (genre pas plus de 3 liens de la page visée)

Posté

Oui merci,

je l'ai configuré pour ne suivre qu'1 lien externe et 10 en profondeur interne et rien à faire, à chaque fois il m'aspire la moitié du web (des dizaines et des dizaines de sites externes)

J'ai recherché si il y avait des problèmes connuent avec HTTtrack et je n'ai rien trouvé?

Quelqu'un aurai une idée?

Posté

Il suffit de le configurer pour qu'il ne suive aucun lien externe (mettre 0 et non 1), non ?

Posté

Merci Dan mais j'ai essayé aussi (avec 0) et là il s'arrète tout de suite (car il ne prends pas en compte les sous domaines or notre site est composé de multiples sous-domaine).

Y'a t'il une solution payante ?

Posté

Dans ce cas tu n'as pas d'autre possibilité ... il faudra lancer une instance de httrack pour chaque sous-domaine, en laissant la valeur à zéro.

Ou alors, fais un essai en mettant domaine.tld plutôt que www.domaine.tld.

En restant sur domaine.tld, tu devrais prendre les sous-domaines, même avec external links à zéro.

Posté

Tu peux essayer de lui coller les 10 sous domaine dans la liste des URLs à crawler, en spécifiant de ne pas suivre les liens externes bien entendu.

Posté (modifié)

Pour info, ça à l'air de fonctionner, j'ai mis l'exploration de site externe à 0, le nombre de lien interne à 20 (maximum) et j'ai mis comme urls de départ une url de chacun des nom de domaines.

Et ça a l'air de fonctionner ;)

Modifié par sparh

Veuillez vous connecter pour commenter

Vous pourrez laisser un commentaire après vous êtes connecté.



Connectez-vous maintenant
×
×
  • Créer...