matthieudeparis Posté 22 Mars 2012 Posté 22 Mars 2012 (modifié) bonjour, à part interdire l'indexation - ce qui est en soit une bonne chose - quel intérêt peut-il y avoir à utiliser noindex pour le référencement : par exemple sur des sites contenant de grandes catégories d'articles paginés (parlons de plusieurs milliers), finalement quel intérêt y'a t-il à partir de la page 2 d'utiliser noindex ? De toutes façons ces pages ne se positionnent jamais sur un résultat de recherche (il y a la page 1 pour cela), cela rend il le crawl plus rapide / sort d'un crawl à venir des pages peu intéressantes et dans le cas de sites à forte volumétrie permet d'allouer ce crawl aux considérées comme importantes ? Merci Modifié 22 Mars 2012 par matthieudeparis
Ernestine Posté 22 Mars 2012 Posté 22 Mars 2012 Salut, Empêcher l'indexation d'une page peut notamment servir à éviter du duplicate content par exemple. Certains l'utilisent aussi pour éviter la dilution de pagerank vers des pages sans intérêt, mais il me semble avoir lu dernièrement sur ce forum, que désormais, ce phénomène de dilution de pagerank n'existait plus, ou du moins est beaucoup moins marqué qu'avant (à confirmer par les experts). Par contre, je ne sais pas quelle est la différence profonde entre un "noindex" dans les métas de la page, et une directive dans le fichier robots.txt, je pense que le résultat est identique d'un point de vue SEO (également à confirmer par les experts).
matthieudeparis Posté 30 Mars 2012 Auteur Posté 30 Mars 2012 Merci Ernestine, mais je me demandais surtout si il y avait un gain au profit ne pages "index" du crawl et de l'indexation par les moteurs notamment pour les sites à forte volumétrie (>500 000 pages).
Cariboo Posté 31 Mars 2012 Posté 31 Mars 2012 La valeur d'attribut noindex et une ligne disallow dans le robots.txt ont des effets très différents. C'est vrai que c'est toujours mal compris par les webmasters. Le robots.txt indique aux moteurs que vous ne voulez pas que le contenu appelable via certaines urls soit téléchargé. Par contre, si le moteur connait l'url, il peut décider de l'indexer ! Cela se manifeste en principe par un snippet vide, avec l'url à la place du titre (qu'il ne connait pas puisqu'il n'a pas pu lire la balise titre), pas de description ou celle de l'ODP, et l'url répétée à la fin. Au contraire, préciser noindex dans la balise meta demande au moteur de ne pas faire apparaître une url dans ses pages de résultats. Mais le contenu de la page est bien téléchargé, parsé, analysé normalement, et du coup les liens figurant sur la page sont découverts et suivis (sauf si on ajoute "nofollow" dans la meta robots). Par conséquent, pour éviter l'indexation d'une url, utiliser le noindex est nécessaire et suffisant, et il NE FAUT JAMAIS UTILISER LE ROBOTS.TXT si on veut juste empêcher l'indexation. Si on souhaite éviter que le contenu des pages soit connu, là il faut empêcher le crawl et utiliser le robots.txt. Pour les paginations, depuis que Google a introduit le support de la balise "link rel=next/prev", le plus simple est de : - laisser google tout crawler - utiliser link rel=next/prev pour aider google à gérer le duplicate (notez bien qu'en général il se débrouille bien mieux qu'avant avec les paginations, même sans cette balise. - et ensuite, décider (ou pas) de mettre les pages suivantes en noindex. C'est vrai que le plus souvent, seule la première page est une bonne page d'atterrissage SEO, et les suivantes sont bof! Donc le noindex prend tout son sens, surtout dans le contexte Panda. Y'a-t'il un gain sur le crawl à utiliser le noindex ? Non, pour les raisons évoquées plus haut : ça n'a rien à voir. Améliore-t'on le crawl en bloquant le crawl des pages jugées inutiles ? Pas toujours, et c'est facile de se tirer une balle dans le pied en essayant de faire ça. Changer le linking interne et/ou augmenter son pagerank et/ou la forme de ses urls et/ou le temps de téléchargement est souvent, et de loin, le plus efficace. Après, pour les gros sites, le vrai problème qui reste à régler c'est la profondeur des pages qui peut être très élevée avec une pagination et donc produire des effets de bords problématiques.
matthieudeparis Posté 2 Avril 2012 Auteur Posté 2 Avril 2012 merci beaucoup de ces éclairages précieux. Je rebondis sur la pagination : il faudrait alors trouver un système permettant aux moteurs d'accéder le plus rapidement à l'ensemble des pages ce qui supposerait tant qu'on imagine qu'un truc type Page Rank existe de ne pas lui représenter des pages qu'il connaîtrait déjà, bon il faut je retrouve un fort en thème dans mon entourage -) Je me souviens d'un jeu quand j'étais (plus) petit, il fallait trouver le nombre que l'autre joueur avait en tête entre 0 et 100 000 : on pouvait poser une question dont la réponse devait être oui ou non, la technique dont je me servais était de diviser à chaque question le nombre par deux : le nombre est -il supérieur à 50 000 ? etc -)) merci encore.
fbern Posté 28 Août 2012 Posté 28 Août 2012 (modifié) bonjour, cela veut dire, si je comprends bien Cariboo, qu'on peut utiliser noindex+canonical (puisque que le contenu de la page est bien téléchargé) ? fbern Modifié 28 Août 2012 par fbern
Sujets conseillés
Veuillez vous connecter pour commenter
Vous pourrez laisser un commentaire après vous êtes connecté.
Connectez-vous maintenant