captain_torche Posté 13 Septembre 2007 Posté 13 Septembre 2007 Je suis en train de développer un script contenant un crawler, et je me demandais s'il serait sage de le proposer sur un site une fois qu'il sera fini. Dans le principe, il va chercher les X premiers liens sur Google pour une requête donnée, et analyse les pages trouvées pour en isoler les mots-clés. Comme je laisse le nombre de pages au choix de l'utilisateur, je me demandais quelle était la gourmandise de Curl pour la récupération de pages. Je pense que le principal du temps est employé à attendre que les pages répondent, ce qui ne doit pas être très consommateur en ressources, mais j'aimerais un avis plus éclairé. Merci d'avance !
ornythorink Posté 19 Octobre 2007 Posté 19 Octobre 2007 Effectivement c'est moins gourmand, même beaucoup plus rapide à mettre en place. Pour avoir fait la même chose je te conseille un curl_multi qui simulera quasiment des threads. Et pour avoir fait l'erreur une fois, en commençant je te conseille de bien camoufler PHP avec la constante SETOPT_MUTE ( même si je ne suis pas certains que ce soit 100% efficace) et d'espacer artificiellement tes requêtes pour ne pas te faire blacklister. Bon courage, si tu veux on pourra comparer nos solutions
binarygirl Posté 19 Octobre 2007 Posté 19 Octobre 2007 je te conseille de bien camoufler PHP avec la constante SETOPT_MUTE ( même si je ne suis pas certains que ce soit 100% efficace) et d'espacer artificiellement tes requêtes pour ne pas te faire blacklister. Je crois que SETOPT_MUTE correspond à CURLOPT_MUTE ? Je ne sais pas très bien à quoi ça sert, mais apparemment ce n'est plus supporté dans les nouvelles version de Curl. En tous les cas il serait indiqué d'utiliser la directive CURLOPT_USERAGENT pour se faire passer pour un navigateur quelconque.
Sujets conseillés
Veuillez vous connecter pour commenter
Vous pourrez laisser un commentaire après vous êtes connecté.
Connectez-vous maintenant