JJJ Posté 6 Octobre 2006 Posté 6 Octobre 2006 Bonjour, je voudrais que vous m'otiez un doute svp : il n'est pas strictement pas possible de fabriquer un flux de syndication d'un site dont on ne connaît pas de quoi se logguer à la base ? (et sans faire une maj manuelle bien sûr) N'ya-t-il pas moyen de fabriquer un parser qui balaye périodiquement au moins toute nouvelle donné en brut (via le résultat html) d'un site quelconque ? Merci pour vos lumières
Leonick Posté 6 Octobre 2006 Posté 6 Octobre 2006 il y a "juste" besoin de se créer un parseur, qui va parcourir toutes les pages à la recherche de nouvelles url et que d'après le contenu des pages de ces url il arrive à faire un résumé. Un bot quoi !
JJJ Posté 6 Octobre 2006 Auteur Posté 6 Octobre 2006 Oui voilà, j'avais pensé à la façon dont fonctionnent les bots; mais est-ce que xml peut s'exploiter pour ça ? Aucune idée. Je sais pas comment on fait ça. Pourriez-vous m'aiguiller ? Je ne trouve pas beaucoup d'infos didactiques sur l'usage éventuel de xml ou de la syndication afin d'envisager une détection de type bot
aspeum Posté 7 Novembre 2006 Posté 7 Novembre 2006 Il y a ça aussi : http://www.ponyfish.com/ Est-ce ça répond à ta demande ? Je l'ai essayé sur un site, ça marche très bien.
JJJ Posté 7 Novembre 2006 Auteur Posté 7 Novembre 2006 Très intéressant ce ponyfish, merci. Cependant, si j'essaye sur site avec frame, ça plante. La faq explique qu'il faut faire pointer sur le frame et choisir des item dans ce frame, oui mais si d'une part le frame est élaboré en php on peut pas vraiment l'afficher seul, ensuite c'est le frame lui-même qui doit être en lien... enfin bref le moteur de ponyfish s'y retrouve pas.
aspeum Posté 8 Novembre 2006 Posté 8 Novembre 2006 Cependant, si j'essaye sur site avec frame, ça plante. La faq explique qu'il faut faire pointer sur le frame et choisir des item dans ce frame, oui mais si d'une part le frame est élaboré en php on peut pas vraiment l'afficher seul, ensuite c'est le frame lui-même qui doit être en lien... enfin bref le moteur de ponyfish s'y retrouve pas. Oui, le système ne doit probablement supporter que des sites correspondant à certains standards... J'en profite pour préciser qu'ils sont extrêmement réactifs : j'ai essayé de créer un flux sur un site, le flux semblait se casser sur un élément, j'envoie un mail pour demander de l'aide ; j'ai eu une réponse sympa dans la journée, et l'outil était adapté dans la semaine (un caractère spécial semblait poser problème).
JJJ Posté 8 Novembre 2006 Auteur Posté 8 Novembre 2006 C'est dommage pour moi que le site que je veux syndiquer ne soit pas aux normes (frames), mais ils ont raison de privilégier certains standards. J'en reviens aux bots donc... il me faudrait créer un robot d'indextaion régulière de nouvelles données. Je n'ai aucune idée de la difficulté à coder ça; quelqu'un aurait une piste pour élaborer ce truc ?
xou Posté 13 Novembre 2006 Posté 13 Novembre 2006 As-tu essayé de ne parser que la frame qui t'intéresse ?
JJJ Posté 13 Novembre 2006 Auteur Posté 13 Novembre 2006 Oui, j'aimerais bien, mais je ne parviens pas à l'isoler. Impossible de choper son url brut (je reprécise que le site ne m'appartient pas). C'est pourquoi ça m'amène à m'interroger sur le fonctionnement d'un bot d'indexation : de toute évidence ces machine fonctionnent sur la régularité de la visite pour sonder tout nouveau texte et hyperlien. Comment fait-il ..? C'est bien une façon de syndiquer des données, dans la démarche, mais on est loin de rss et compagnie là. Pourtant c'est à ce résultat que j'aimerais parvenir.
Sujets conseillés
Veuillez vous connecter pour commenter
Vous pourrez laisser un commentaire après vous êtes connecté.
Connectez-vous maintenant