YoGi Posté 3 Avril 2005 Posté 3 Avril 2005 (modifié) Bonjour bonjour, Je maintiens un site dans lequel est publié régulièrement de nouveaux articles. Ces articles sont linkés sur la page d'accueil (les 10 derniers). Ceux-ci sont très vite indexés par google, et bien souvent on se retrouve en tête des requêtes (ex : ici) Toutefois, il semblerait qu'au bout d'un certains temps (+- 1 mois & demi), ces articles disparaitraient de google ; impossible de remettre la main dessus, même avec une requête ciblée sur le site (commande site:darkmag.net) (ex : cet article qui a complètement disparu de la circulation). Dans le code HTML (de piètre qualité et d'une autre époque, merci de ne pas en tenir rigueur), je ne vois rien qui pourrait interférer. Quant aux entêtes HTTP, voici à quoi elles ressemblent lorsqu'on accède à un article : HTTP/1.x 200 OKDate: Sun, 03 Apr 2005 11:03:25 GMT Server: Apache/1.3.31 Vary: Accept-Encoding Cache-Control: max-age=300 Expires: Sun, 03 Apr 2005 11:08:25 GMT X-Powered-By: PHP/4.3.10 Keep-Alive: timeout=15, max=100 Connection: Keep-Alive Content-Type: text/html Content-Encoding: gzip Content-Length: 6535 On notera les entêtes Cache-Control et Expires : celles-ci sont ajoutées automatiquement par mon hébergeur. J'imagine que je pourrais les écraser par mes propres valeurs sans trop de difficulté, mais de toute façon je n'ai pas l'impression que cela puisse venir de là. Peut-être est-ce dû au fonctionnement même dans google ? Dans tous les cas, tout avis éclairé est le bienvenu Modifié 3 Avril 2005 par YoGi
Dan Posté 3 Avril 2005 Posté 3 Avril 2005 Bonjour YoGi, En regardant la source de ta page, on trouve ceci: <h1 style="display:none">Darkmag</h1> C'est un peu flagrant, et à mon sens cela doit tomber dans les filtres de Google, non ? D'autant plus que, vu ton nom de domaine, cette balise ne doit pas changer la face du monde
YoGi Posté 3 Avril 2005 Auteur Posté 3 Avril 2005 c'est possible mais je doute qu'elle interfère par rapport à l'indexation des articles par google.
Eclipsis Posté 3 Avril 2005 Posté 3 Avril 2005 En tout cas, pour ce qui est de la durée de vie d'un site indexé par Google, s'il n'y a pas de contrôle spécial dans les entêtes, je n'ai encore jamais vu la limite... J'ai un ou deux sites quasi-antiques qui sont encore indexés, alors que j'ai dû faire la dernière modif en 1996... Ils sont toujours là, tout vieux, tout moches, mais indexés Nostalgie quand tu nous tiens. Bon en revanche, ce n'est pas ça qui va franchement t'aider à résoudre tes problèmes, je te l'accorde
YoGi Posté 3 Avril 2005 Auteur Posté 3 Avril 2005 je viens de jetter un coup d'oeil à mes logs, petit détail amusant, je n'ai pas un hit de la part de google aujourd'hui, alors qu'en général je peux compter aisément 20 ou 30 hits / jour.. une piste supplémentaire ?
Nicolas Posté 4 Avril 2005 Posté 4 Avril 2005 Bonjour, Est-ce qu'il y encore un lien interne sur cette page : -http://darkmag.net/chroniques/260/rapture-silent-stage ??? car si je vais sur la page des chroniques : -http://darkmag.net/chroniques (référencée dans google : PR0) je n'ai qu'une dizaine d'articles... Si on veut voir les autres article il faut aller sur les autres pages via le menu déroulant! Ce menu n'est p-e pas suivi par les robots... Les 18 pages sur les 19 qui contiennent les articles ne sont p-e pas référencés donc les articles qui les composent ne sont pas référencés non plu... Le mieux serait de faire un menu "html" avec un lien sur chaque page (que tu pourras nommer ainsi par ex : chronique1.html, chronique2.html, ...). Si ces pages sont suivies par les robots d'indexation les articles qui les composent le seront aussi. Le problème actuel c'est dès que tes articles passent en page 2 ils ne sont plus référençable... Je pense que le pb se trouve là! EDIT: Ta chronique "260" sera bientôt indexée puisque tu as un lien dans ce topic. Cela prouvera que ton pb vient de la possiblité pour les moteurs de parcourir jusqu'au bout les liens "internes" de tes chroniques
YoGi Posté 4 Avril 2005 Auteur Posté 4 Avril 2005 Aujourd'hui ce lien n'a plus une profondeur aussi faible, mais quand l'article a été publié, il était en page d'accueil comme dans la liste que tu as consulté. Et il fut d'ailleurs bien référencé en son temps (il y a 1 mois & demi).
Nicolas Posté 4 Avril 2005 Posté 4 Avril 2005 Tes anciens articles ne sont pas(plus) référencés car ils ne peuvent pas être trouvés par les moteurs. Tu devrais regarder avec Xenu pour voir comment ton site peut être parcouru par un robot. Cela te permettra de voir si tes articles non référencés aujourd'hui sont accessibles par des liens "html"...ama non... il était en page d'accueil comme dans la liste que tu as consulté. Ils sont indexables tant qu'ils sont en page d'accueil mais après ? assure toi que ta page "chroniques" est concue de façon à etre entierement parcourue par les moteurs.
YoGi Posté 4 Avril 2005 Auteur Posté 4 Avril 2005 (modifié) EDIT: Ta chronique "260" sera bientôt indexée puisque tu as un lien dans ce topic. Cela prouvera que ton pb vient de la possiblité pour les moteurs de parcourir jusqu'au bout les liens "internes" de tes chroniques <{POST_SNAPBACK}> en effet, j'ai constaté dans mes logs que googlebot est passé dessus ce matin. mais cela voudrait-il dire que toutes les pages doivent être accessibles à tout moment selon un schéma de navigation classique pour pouvoir être (et rester) référencées ? Penses-tu que dès lors qu'un article disparait de l'accueil comme de la liste directe des X dernières, google estime que l'article n'existe plus et supprime la référence ? Dans quelle cas, la solution serait-elle donc de rendre cette liste "navigable" par un bot ? (j'imagine en présentant des liens plutôt qu'un formulaire) Modifié 4 Avril 2005 par YoGi
dragondz Posté 4 Avril 2005 Posté 4 Avril 2005 Salut, Les moteurs doivent donner des reponses pertinentes aux recherches, donc les pages disparus (que le bot ne trouve pas) sont considéré comme effacé et ne sont plus présente dans le moteur de recherche, et c'est logique. Si tu veux que tes ancienne pages soient toujours indexés il faut qu'il y ai un lien vers elles (en html de preference), tu peux fair une page archive par exemple , ou tu mettra les liens de tes anciens articles (bien sur tu met un lien de ta pages d'accueil vers cette page archive en html).
YoGi Posté 4 Avril 2005 Auteur Posté 4 Avril 2005 ok je vois le truc. je ne pensais pas que ça fonctionnait de cette manière. merci pour le coup de main et merci pour xenu je ne connaissais pas.
YoGi Posté 13 Avril 2005 Auteur Posté 13 Avril 2005 (modifié) Je reviens à la charge. J'ai modifié voilà 4 jours le système de listes. Auparavant il s'agissait d'un formulaire (POST), aujourd'hui ce sont des liens classiques (à la google) pour naviguer entre les pages : http://darkmag.net/chroniques En outre, avec l'ancienne méthode Xenu n'arrivait pas à aller au delà de la première page (il s'agit du problème que vous avez relevé), maintenant il y arrive sans problème et parcours toutes les pages de toutes les listes, et subséquemment l'ensemble des articles - même les plus anciens. Il me semblait donc que c'était bon, toutefois, Google n'est manifestement pas repassé sur l'ensemble pages et, en dehors des nouvelles publications, n'a pas référencé les anciennes. Auriez vous une idée expliquant ce phénomène ? Serait-ce trop tôt ? j'avoue être un peu perdu là. Modifié 13 Avril 2005 par YoGi
Jeanluc Posté 13 Avril 2005 Posté 13 Avril 2005 Serait-ce trop tôt ? Oui. Je pense que tu as fait les changements qu'il fallait, mais maintenant il va falloir être patient. Il y a 4 jours, j'ai doublé le nombre de pages d'un site dont toutes les pages étaient indexées par Google. Il n'a encore ajouté aucune des nouvelles pages. Je patiente aussi... Jean-Luc
Jeanluc Posté 14 Avril 2005 Posté 14 Avril 2005 Il y a 4 jours, j'ai doublé le nombre de pages d'un site dont toutes les pages étaient indexées par Google. Il n'a encore ajouté aucune des nouvelles pages. Je patiente aussi... ça y est!... les pages ajoutées il y a 5 jours apparaissent maintenant dans les résultats. Le plus étonnant, c'est que ces nouvelles pages apparaîssent presqu'en même temps sur tous les data centers. Jean-Luc P.S. YoGi, j'espère que ça bouge chez toi aussi.
YoGi Posté 15 Avril 2005 Auteur Posté 15 Avril 2005 Toujours rien de mon coté.. j'aimerais bien comprendre pourquoi
Jeanluc Posté 15 Avril 2005 Posté 15 Avril 2005 Je vois que tu a fait de l'URL rewriting, mais pas pour les liens de type [i]http://darkmag.net/chroniques?page=1&order=Date&search=. Je ne dis pas que Google ne sait pas suivre ce genre de lien, mais je pense qu'il met plus de temps à les diriger que si c'était rewrité. Il me semble qu'il faut passer par ces liens pour arriver dans tes archives. Si c'est bien le cas, c'est peut-être une chose que tu peux modifier, pour accélérer le traitement par Google. Jean-Luc
YoGi Posté 17 Avril 2005 Auteur Posté 17 Avril 2005 En fait l'URL est en partie réécrite, puisque le "/chroniques" pointe vers un script PHP avec des paramètres précis (et pour le coup "invisibles"). Juste que pour le coup j'en ajoute d'autres pour les options de navigation dans les listes. Crois-tu que google (et les autres moteurs) ne feraient pas la différence entre "/chroniques" et "/chroniques?page=1" par ex ? ce serait quand même étonnant, puisqu'avant que je mette en place une réécriture d'URL pour les articles, c'était quelque chose du type "chronique.php?action=YYYY&id=XXXX" et elles étaient (en partie) indexées..
Jeanluc Posté 17 Avril 2005 Posté 17 Avril 2005 Je vois que http://www.google.be/search?num=100&hl=fr&...hroniques&meta= retourne 123 pages. C'est beaucoup plus que les 15 pages directement accessibles depuis http://darkmag.net/chroniques . Faut peut-être juste patienter encore un peu ? Jean-Luc
YoGi Posté 19 Avril 2005 Auteur Posté 19 Avril 2005 En fait non. http://www.google.be/search?num=100&hl=fr&...echercher&meta= retourne (aujourd'hui) 106 résultats. Or, il y a 304 articles, il devrait donc y avoir (au moins) 304 résultats. Non ?
Jeanluc Posté 19 Avril 2005 Posté 19 Avril 2005 J'avais obtenu 123 et tu obtiens 106 parce que Google nous a aiguillé vers des data centers différents. C'est mieux de vérifier sur la page http://www.webmaster-hub.com/outils/googlesearch.php pour avoir une vue d'ensemble. Oui, Google devrait donner 304 résultats. Voici quelques pistes, s'il ne le fait pas : - il a supprimé des pages parce qu'elles ressemblaient trop à des pages déjà indexées; - il a supprimé des pages parce qu'il n'y avait plus de lien "valable" vers elles; - il ne connaît pas certaines pages parce qu'il ne trouve pas de lien "valable" vers elles. Lien "valable" = lien qu'il comprend et avec un PR suffisant. En général, plus on s'éloigne de la page d'accueil, plus le PR diminue. Souvent le PR s'écrase dans les liens comprenant des "?". Question : les pages référencées ont-elles des caractéristiques communes qui permettraient de deviner quels sont les critères de Google. J'imagine que les pages de http://darkmag.net/chroniques avec un lien depuis la page d'accueil sont indexées ? Jean-Luc
Sujets conseillés
Veuillez vous connecter pour commenter
Vous pourrez laisser un commentaire après vous êtes connecté.
Connectez-vous maintenant