Melkior Posté 31 Octobre 2012 Posté 31 Octobre 2012 Bonjour, Il existe des outils sympathiques pour regarder les sites comme les moteurs de recherche. Et j'ai été surpris d'un résultat. En effet l'outil refuse d'analyser l'index du site et me renvoit vers le fichier robots.txt Un autre outil lui me donne : Langue retenue : Français (par défault)Attention, aucune langue n'est définie par cette page. Entête HTTP "Content-Langage" : aucune information Métadonnées HTML (http-equiv="Content-Language") : aucune information Métadonnées HTML (name="language") : aucune information Attribut "lang" ou "xml:lang" sur balise HTML, BODY ou META : aucune information [*]Codage de caractères retenu : latin1 Attention, cette page ne définit aucun codage de caractères. Codage de caractères (HTTP) : aucun Codage de caractères (meta.http-equiv) : aucun [*]Balise title : [*]Balise meta, description : [*]Balise meta, keywords : [*]Cette page ne contient pas de frames. [*]Cette page ne contient pas d'iframes. On peut supposer que ce site est donc vide. Mais pourtant, dans le code source on les voit les méta bien remplis. On sait tous que : Disallow: / Veut dire que l'on interdit tout accès au site pour les adresses du site commence par un / Mais le problème c'est que je ne trouve pas cette ligne dans robots.txt de ce site J'ai : User-agent: * Disallow: /gcenter/ Disallow: /index.php?main_page=ilike Disallow: /producttags/ Disallow: /dresses/ Disallow: /includes/ Disallow: /robes/ et de plus lorsqu'on fait : site:monsite.com dans gg On a des résultats D'ou peut provenir ce blocage ? Merci
yuston Posté 31 Octobre 2012 Posté 31 Octobre 2012 Salut, Le mieux c'est de nous donner l'outil qui refuse de faire son (supposé) travail. Au niveau des blocages, on peut également bloquer l'accès au site (de manière beaucoup plus restrictive que le robots.txt) via un .htaccess. Peut-être que l'outil est interdit d'accès par ce biais.
Melkior Posté 31 Octobre 2012 Auteur Posté 31 Octobre 2012 Salut, Le mieux c'est de nous donner l'outil qui refuse de faire son (supposé) travail. En faite c'est pas l'outil qui fait mal son travail. C'est le webmaster qui a bloqué un site et je m'en suis rendu compte grâce aux outils d'analyses. J'aimerais comprendre quelle technique il utilise pour arriver à cela.
Ernestine Posté 31 Octobre 2012 Posté 31 Octobre 2012 Il y a peut être un <meta name="robots" content="noindex"> dans le head de la page.
Dan Posté 31 Octobre 2012 Posté 31 Octobre 2012 Ou encore plus simplement avec un "Forbidden" renvoyé pour certains User_Agent... Par exemple : RewriteCond %{HTTP_USER_AGENT} snap.com [NC,OR]RewriteCond %{HTTP_USER_AGENT} Snapbot [NC,OR]RewriteCond %{HTTP_USER_AGENT} Gigabot [NC,OR]RewriteCond %{HTTP_USER_AGENT} Xenu\ Link\ Sleuth [NC,OR]RewriteCond %{HTTP_USER_AGENT} larbin [NC,OR]RewriteCond %{HTTP_USER_AGENT} HTTrack [NC,OR]RewriteCond %{HTTP_USER_AGENT} PhpDig [NC,OR]RewriteCond %{HTTP_USER_AGENT} WebCopier [NC,OR]RewriteCond %{HTTP_USER_AGENT} LWP::Simple [NC,OR]RewriteCond %{HTTP_USER_AGENT} lwp-trivial [NC,OR]RewriteCond %{HTTP_REFERER} nique.la.racaille.free.fr [NC,OR]RewriteCond %{X-moz} prefetchRewriteRule .* - [F]
Melkior Posté 31 Octobre 2012 Auteur Posté 31 Octobre 2012 Un petit chercher sur le code source : avec : noindex et Rewrite Ne donne rien
yuston Posté 31 Octobre 2012 Posté 31 Octobre 2012 C'est normal que tu ne trouves rien pour "rewrite" avec un CTRL+F car les instructions données dans les .htaccess ne sont pas visibles pour les visiteurs. On peut éventuellement voir le résultat donné en analysant le header renvoyé mais c'est tout. RewriteCond %{HTTP_REFERER} nique.la.racaille.free.fr [NC,OR] Ahahah c'est quoi ça? Tu as tiré d'où ton extrait Dan?!
Sujets conseillés
Veuillez vous connecter pour commenter
Vous pourrez laisser un commentaire après vous êtes connecté.
Connectez-vous maintenant