Aller au contenu

Sujets conseillés

Posté (modifié)

Bonjour bonjour,

Je maintiens un site dans lequel est publié régulièrement de nouveaux articles. Ces articles sont linkés sur la page d'accueil (les 10 derniers). Ceux-ci sont très vite indexés par google, et bien souvent on se retrouve en tête des requêtes (ex : ici)

Toutefois, il semblerait qu'au bout d'un certains temps (+- 1 mois & demi), ces articles disparaitraient de google ; impossible de remettre la main dessus, même avec une requête ciblée sur le site (commande site:darkmag.net) (ex : cet article qui a complètement disparu de la circulation).

Dans le code HTML (de piètre qualité et d'une autre époque, merci de ne pas en tenir rigueur), je ne vois rien qui pourrait interférer.

Quant aux entêtes HTTP, voici à quoi elles ressemblent lorsqu'on accède à un article :

HTTP/1.x 200 OK

Date: Sun, 03 Apr 2005 11:03:25 GMT

Server: Apache/1.3.31

Vary: Accept-Encoding

Cache-Control: max-age=300

Expires: Sun, 03 Apr 2005 11:08:25 GMT

X-Powered-By: PHP/4.3.10

Keep-Alive: timeout=15, max=100

Connection: Keep-Alive

Content-Type: text/html

Content-Encoding: gzip

Content-Length: 6535

On notera les entêtes Cache-Control et Expires : celles-ci sont ajoutées automatiquement par mon hébergeur. J'imagine que je pourrais les écraser par mes propres valeurs sans trop de difficulté, mais de toute façon je n'ai pas l'impression que cela puisse venir de là.

Peut-être est-ce dû au fonctionnement même dans google ?

Dans tous les cas, tout avis éclairé est le bienvenu ;)

Modifié par YoGi
Posté

Bonjour YoGi,

En regardant la source de ta page, on trouve ceci:

<h1 style="display:none">Darkmag</h1>

C'est un peu flagrant, et à mon sens cela doit tomber dans les filtres de Google, non ? ;)

D'autant plus que, vu ton nom de domaine, cette balise ne doit pas changer la face du monde :whistling:

Posté

c'est possible

mais je doute qu'elle interfère par rapport à l'indexation des articles par google.

Posté

En tout cas, pour ce qui est de la durée de vie d'un site indexé par Google, s'il n'y a pas de contrôle spécial dans les entêtes, je n'ai encore jamais vu la limite... J'ai un ou deux sites quasi-antiques qui sont encore indexés, alors que j'ai dû faire la dernière modif en 1996... Ils sont toujours là, tout vieux, tout moches, mais indexés :) Nostalgie quand tu nous tiens.

Bon en revanche, ce n'est pas ça qui va franchement t'aider à résoudre tes problèmes, je te l'accorde ^_^

Posté

je viens de jetter un coup d'oeil à mes logs, petit détail amusant, je n'ai pas un hit de la part de google aujourd'hui, alors qu'en général je peux compter aisément 20 ou 30 hits / jour..

une piste supplémentaire ?

Posté

Bonjour,

Est-ce qu'il y encore un lien interne sur cette page : -http://darkmag.net/chroniques/260/rapture-silent-stage ???

car si je vais sur la page des chroniques : -http://darkmag.net/chroniques (référencée dans google : PR0) je n'ai qu'une dizaine d'articles... Si on veut voir les autres article il faut aller sur les autres pages via le menu déroulant! Ce menu n'est p-e pas suivi par les robots... Les 18 pages sur les 19 qui contiennent les articles ne sont p-e pas référencés donc les articles qui les composent ne sont pas référencés non plu...

Le mieux serait de faire un menu "html" avec un lien sur chaque page (que tu pourras nommer ainsi par ex : chronique1.html, chronique2.html, ...). Si ces pages sont suivies par les robots d'indexation les articles qui les composent le seront aussi.

Le problème actuel c'est dès que tes articles passent en page 2 ils ne sont plus référençable...

Je pense que le pb se trouve là!

EDIT: Ta chronique "260" sera bientôt indexée puisque tu as un lien dans ce topic. Cela prouvera que ton pb vient de la possiblité pour les moteurs de parcourir jusqu'au bout les liens "internes" de tes chroniques

Posté

Aujourd'hui ce lien n'a plus une profondeur aussi faible, mais quand l'article a été publié, il était en page d'accueil comme dans la liste que tu as consulté.

Et il fut d'ailleurs bien référencé en son temps (il y a 1 mois & demi).

Posté

Tes anciens articles ne sont pas(plus) référencés car ils ne peuvent pas être trouvés par les moteurs.

Tu devrais regarder avec Xenu pour voir comment ton site peut être parcouru par un robot. Cela te permettra de voir si tes articles non référencés aujourd'hui sont accessibles par des liens "html"...ama non...

il était en page d'accueil comme dans la liste que tu as consulté.

Ils sont indexables tant qu'ils sont en page d'accueil mais après ? assure toi que ta page "chroniques" est concue de façon à etre entierement parcourue par les moteurs.

Posté (modifié)
EDIT: Ta chronique "260" sera bientôt indexée puisque tu as un lien dans ce topic. Cela prouvera que ton pb vient de la possiblité pour les moteurs de parcourir jusqu'au bout les liens "internes" de tes chroniques

<{POST_SNAPBACK}>

en effet, j'ai constaté dans mes logs que googlebot est passé dessus ce matin.

mais cela voudrait-il dire que toutes les pages doivent être accessibles à tout moment selon un schéma de navigation classique pour pouvoir être (et rester) référencées ? Penses-tu que dès lors qu'un article disparait de l'accueil comme de la liste directe des X dernières, google estime que l'article n'existe plus et supprime la référence ?

Dans quelle cas, la solution serait-elle donc de rendre cette liste "navigable" par un bot ? (j'imagine en présentant des liens plutôt qu'un formulaire)

Modifié par YoGi
Posté

Salut,

Les moteurs doivent donner des reponses pertinentes aux recherches, donc les pages disparus (que le bot ne trouve pas) sont considéré comme effacé et ne sont plus présente dans le moteur de recherche, et c'est logique.

Si tu veux que tes ancienne pages soient toujours indexés il faut qu'il y ai un lien vers elles (en html de preference),

tu peux fair une page archive par exemple , ou tu mettra les liens de tes anciens articles (bien sur tu met un lien de ta pages d'accueil vers cette page archive en html). B)

Posté

ok je vois le truc. je ne pensais pas que ça fonctionnait de cette manière.

merci pour le coup de main et merci pour xenu je ne connaissais pas.

  • 2 semaines plus tard...
Posté (modifié)

Je reviens à la charge.

J'ai modifié voilà 4 jours le système de listes. Auparavant il s'agissait d'un formulaire (POST), aujourd'hui ce sont des liens classiques (à la google) pour naviguer entre les pages : http://darkmag.net/chroniques

En outre, avec l'ancienne méthode Xenu n'arrivait pas à aller au delà de la première page (il s'agit du problème que vous avez relevé), maintenant il y arrive sans problème et parcours toutes les pages de toutes les listes, et subséquemment l'ensemble des articles - même les plus anciens.

Il me semblait donc que c'était bon, toutefois, Google n'est manifestement pas repassé sur l'ensemble pages et, en dehors des nouvelles publications, n'a pas référencé les anciennes.

Auriez vous une idée expliquant ce phénomène ? Serait-ce trop tôt ? j'avoue être un peu perdu là.

Modifié par YoGi
Posté
Serait-ce trop tôt ?

Oui. ;)

Je pense que tu as fait les changements qu'il fallait, mais maintenant il va falloir être patient.

Il y a 4 jours, j'ai doublé le nombre de pages d'un site dont toutes les pages étaient indexées par Google. Il n'a encore ajouté aucune des nouvelles pages. Je patiente aussi...

Jean-Luc

Posté
Il y a 4 jours, j'ai doublé le nombre de pages d'un site dont toutes les pages étaient indexées par Google. Il n'a encore ajouté aucune des nouvelles pages. Je patiente aussi...

:fete: ça y est!... les pages ajoutées il y a 5 jours apparaissent maintenant dans les résultats. :hourra:

Le plus étonnant, c'est que ces nouvelles pages apparaîssent presqu'en même temps sur tous les data centers.

Jean-Luc

P.S. YoGi, j'espère que ça bouge chez toi aussi.

Posté

Je vois que tu a fait de l'URL rewriting, mais pas pour les liens de type [i]http://darkmag.net/chroniques?page=1&order=Date&search=. Je ne dis pas que Google ne sait pas suivre ce genre de lien, mais je pense qu'il met plus de temps à les diriger que si c'était rewrité.

Il me semble qu'il faut passer par ces liens pour arriver dans tes archives. Si c'est bien le cas, c'est peut-être une chose que tu peux modifier, pour accélérer le traitement par Google.

Jean-Luc

Posté

En fait l'URL est en partie réécrite, puisque le "/chroniques" pointe vers un script PHP avec des paramètres précis (et pour le coup "invisibles"). Juste que pour le coup j'en ajoute d'autres pour les options de navigation dans les listes.

Crois-tu que google (et les autres moteurs) ne feraient pas la différence entre "/chroniques" et "/chroniques?page=1" par ex ? ce serait quand même étonnant, puisqu'avant que je mette en place une réécriture d'URL pour les articles, c'était quelque chose du type "chronique.php?action=YYYY&id=XXXX" et elles étaient (en partie) indexées..

Posté

J'avais obtenu 123 et tu obtiens 106 parce que Google nous a aiguillé vers des data centers différents. C'est mieux de vérifier sur la page http://www.webmaster-hub.com/outils/googlesearch.php pour avoir une vue d'ensemble.

Oui, Google devrait donner 304 résultats. Voici quelques pistes, s'il ne le fait pas :

- il a supprimé des pages parce qu'elles ressemblaient trop à des pages déjà indexées;

- il a supprimé des pages parce qu'il n'y avait plus de lien "valable" vers elles;

- il ne connaît pas certaines pages parce qu'il ne trouve pas de lien "valable" vers elles.

Lien "valable" = lien qu'il comprend et avec un PR suffisant. En général, plus on s'éloigne de la page d'accueil, plus le PR diminue. Souvent le PR s'écrase dans les liens comprenant des "?".

Question : les pages référencées ont-elles des caractéristiques communes qui permettraient de deviner quels sont les critères de Google. J'imagine que les pages de http://darkmag.net/chroniques avec un lien depuis la page d'accueil sont indexées ?

Jean-Luc

Veuillez vous connecter pour commenter

Vous pourrez laisser un commentaire après vous êtes connecté.



Connectez-vous maintenant
×
×
  • Créer...