Aller au contenu

Sujets conseillés

Posté

Bonjour,

je voudrais que vous m'otiez un doute svp : il n'est pas strictement pas possible de fabriquer un flux de syndication d'un site dont on ne connaît pas de quoi se logguer à la base ? (et sans faire une maj manuelle bien sûr)

N'ya-t-il pas moyen de fabriquer un parser qui balaye périodiquement au moins toute nouvelle donné en brut (via le résultat html) d'un site quelconque ?

Merci pour vos lumières

Posté

il y a "juste" besoin de se créer un parseur, qui va parcourir toutes les pages à la recherche de nouvelles url et que d'après le contenu des pages de ces url il arrive à faire un résumé.

Un bot quoi !

Posté

Oui voilà, j'avais pensé à la façon dont fonctionnent les bots; mais est-ce que xml peut s'exploiter pour ça ? :nonono: Aucune idée. Je sais pas comment on fait ça.

Pourriez-vous m'aiguiller ? Je ne trouve pas beaucoup d'infos didactiques sur l'usage éventuel de xml ou de la syndication afin d'envisager une détection de type bot :(

  • 1 month later...
Posté

Très intéressant ce ponyfish, merci.

Cependant, si j'essaye sur site avec frame, ça plante. La faq explique qu'il faut faire pointer sur le frame et choisir des item dans ce frame, oui mais si d'une part le frame est élaboré en php on peut pas vraiment l'afficher seul, ensuite c'est le frame lui-même qui doit être en lien... enfin bref le moteur de ponyfish s'y retrouve pas.

Posté
Cependant, si j'essaye sur site avec frame, ça plante. La faq explique qu'il faut faire pointer sur le frame et choisir des item dans ce frame, oui mais si d'une part le frame est élaboré en php on peut pas vraiment l'afficher seul, ensuite c'est le frame lui-même qui doit être en lien... enfin bref le moteur de ponyfish s'y retrouve pas.

Oui, le système ne doit probablement supporter que des sites correspondant à certains standards...

J'en profite pour préciser qu'ils sont extrêmement réactifs : j'ai essayé de créer un flux sur un site, le flux semblait se casser sur un élément, j'envoie un mail pour demander de l'aide ; j'ai eu une réponse sympa dans la journée, et l'outil était adapté dans la semaine (un caractère spécial semblait poser problème).

Posté

C'est dommage pour moi que le site que je veux syndiquer ne soit pas aux normes (frames), mais ils ont raison de privilégier certains standards.

J'en reviens aux bots donc... il me faudrait créer un robot d'indextaion régulière de nouvelles données. Je n'ai aucune idée de la difficulté à coder ça; quelqu'un aurait une piste pour élaborer ce truc ?

Posté

Oui, j'aimerais bien, mais je ne parviens pas à l'isoler. Impossible de choper son url brut (je reprécise que le site ne m'appartient pas).

C'est pourquoi ça m'amène à m'interroger sur le fonctionnement d'un bot d'indexation : de toute évidence ces machine fonctionnent sur la régularité de la visite pour sonder tout nouveau texte et hyperlien. Comment fait-il ..? C'est bien une façon de syndiquer des données, dans la démarche, mais on est loin de rss et compagnie là. Pourtant c'est à ce résultat que j'aimerais parvenir.

Veuillez vous connecter pour commenter

Vous pourrez laisser un commentaire après vous êtes connecté.



Connectez-vous maintenant
×
×
  • Créer...