Aller au contenu

Performance de Curl ?


Sujets conseillés

Posté

Je suis en train de développer un script contenant un crawler, et je me demandais s'il serait sage de le proposer sur un site une fois qu'il sera fini.

Dans le principe, il va chercher les X premiers liens sur Google pour une requête donnée, et analyse les pages trouvées pour en isoler les mots-clés.

Comme je laisse le nombre de pages au choix de l'utilisateur, je me demandais quelle était la gourmandise de Curl pour la récupération de pages.

Je pense que le principal du temps est employé à attendre que les pages répondent, ce qui ne doit pas être très consommateur en ressources, mais j'aimerais un avis plus éclairé.

Merci d'avance !

  • 1 month later...
Posté

Effectivement c'est moins gourmand, même beaucoup plus rapide

à mettre en place.

Pour avoir fait la même chose je te conseille un curl_multi qui simulera

quasiment des threads.

Et pour avoir fait l'erreur une fois, en commençant je te conseille de

bien camoufler PHP avec la constante SETOPT_MUTE ( même si je ne

suis pas certains que ce soit 100% efficace) et d'espacer artificiellement

tes requêtes pour ne pas te faire blacklister.

Bon courage, si tu veux on pourra comparer nos solutions ;)

Posté
je te conseille de

bien camoufler PHP avec la constante SETOPT_MUTE ( même si je ne

suis pas certains que ce soit 100% efficace) et d'espacer artificiellement

tes requêtes pour ne pas te faire blacklister.

Je crois que SETOPT_MUTE correspond à CURLOPT_MUTE ? Je ne sais pas très bien à quoi ça sert, mais apparemment ce n'est plus supporté dans les nouvelles version de Curl.

En tous les cas il serait indiqué d'utiliser la directive CURLOPT_USERAGENT pour se faire passer pour un navigateur quelconque.

Veuillez vous connecter pour commenter

Vous pourrez laisser un commentaire après vous êtes connecté.



Connectez-vous maintenant
×
×
  • Créer...