Joomla портал
seo seo Subscribe
0
seo

В этом случае запись описывает режим доступа по умолча

нию для любого робота, неупомянутого явно в других записях. В файле robots.txt

не может быть нескольких таких записей.

В табл. 1 приведены имена роботов некоторых поисковых систем.

Таблица 1. Имена роботов поисковых систем

Поисковая система или сервис проверки ссылок Имя робота

AltaVista (http://www.altavista.com/) Scooter

AOL (http://search.aol.com/) Slurp

EuroSeek (http://www.euroseek.com/) Arachnoidea

Excite (http://www.excite.com/) ArchitextSpider

EZResult (http://www.ezresult.com/) Mozilla

Fast (http://www.fastsearch.com/) Fast

Google (http://www.google.com/) Googlebot

Hotbot (http://www.hotbot.com/) Slurp

Infoseek (http://www.infoseek.com/) – GO.com (http://go.com/) Infoseek Sidewinder;

Ultraseek

iWon (http://www.iwon.com/) Slurp

LookSmart (http://www.looksmart.com/) Slurp

Lycos (http://www.lycos.com/) Lycos

MSN (http://www.msn.com/) Slurp

Netscape Search (http://search.netscape.com/) Googlebot

Northern Light (http://www.northernlight.com/) Gulliver

Teoma (http://www.directhit.com/) Grabber

W3C Link Checker (http://validator.w3.org/checklink/) W3Cchecklink

WebCrawler (http://www.webcrawler.com/) ArchitextSpider

Yahoo! (http://www.yahoo.com/) Googlebot

Rambler (http://www.rambler.ru/) StackRambler

Апорт (http://www.aport.ru/) Aport

Яndex (http://www.yandex.ru/) Yandex

Начиная со следующей строки после указания переменной User-agent, оп

ределяются собственно правила поведения робота в виде задания значений пере

менным Allow(Разрешить) и Disallow(Запретить).

В поле Allowзадается перечень разрешенных для посещения роботами поис

ковых машин каталогов и файлов, а в поле Disallow– перечень закрываемых

каталогов и файлов. Это может быть полный или частичный путь. Любой URL

адрес, начинающийся с этого значения, нельзя будет загрузить. Например, за

пись Disallow: /help запрещает доступ к /help.html и /help/index.html, в то

время как запись Disallow: /help/ запретит доступ к /help/index.html, но

разрешит доступ к /help.html.

Если файл находится в корневом каталоге, обязательно включите перед его

именем символ «слеш» – косую черту вправо.

Пустое значение параметра Disallowозначает, что все URL сайта могут быть

проиндексированы. Частая ошибка при написании robots.txt состоит в том, автор

Этапы большого пути

ставит *, чтобы указать, что хочет исключить все файлы в каталоге. Однако пра

вильным будет не включать никаких звездочек в поле Disallow.

В файле robots.txt должно быть, по крайней мере, одно поле Disallow. Сим

вол # предваряет комментарии, необрабатываемые роботами.

В примере, рассмотренном выше, первая запись запрещает индексирова

ние двух каталогов и файла product1.html. Роботу Scooter поисковой системы

AltaVista и роботу Aport поисковой системы Апорт для доступа открываются

все каталоги (поле Disallowпусто). При необходимости закрыть все катало

ги следовало бы написать: Disallow: /. Пустая строка между записями не

обходима.

Очень важно не допускать ошибок в файле robots.txt. В противном случае

конструкции могут не работать, а вы даже не будете знать об этом. Возможно,

некоторые поисковые системы без затруднений разрешат проблемы, возникаю

щие изза различий в синтаксисе, однако абсолютной гарантии нет. Поэтому,

если вы обнаружите ошибку в синтаксисе, исправьте ее и повторно зарегистри

руйте ресурс в поисковых системах. Роботы поисковых машин снова проиндек

сируют ваш сайт и выполнят все указания, имеющиеся в файле robots.txt.

Обратите внимание, что недопустимы строки вида:

Disallow: /tmp/*

или

Disallow: *.gif

Подробное описание стандарта исключений и синтаксиса команд файла

robots.txt вместе с другой полезной информацией о роботах (на английском язы

ке) можно найти по адресу http://www.robotstxt.org/wc/robots.html.

Тэг META для роботов

Файл robots.txt поддерживается практически всеми роботами, однако корневой

каталог сервера может быть недоступен вам. В этом случае для аналогичных це

лей, но лишь в пределах одного документа можно использовать специальные ме

татэги. Они не только решают проблему запрета, но и предоставляют позитивные

возможности для управления индексированием. Это более гибкое средство уп

равления индексацией, чем robots.txt. В частности, в тэге можно дать роботу по

исковой машины предписание не уходить по ссылкам на чужие серверы, напри

мер, в документах со списками ссылок:

Из данного примера видно, что все управление в метатэге сводится к указа

нию двух переменных, а именно NAME и CONTENT. Для переменной CONTENT

в контексте NAME=“robots” допустимо использовать следующие значения

(они могут быть записаны как строчными, так и прописными буквами):

index– разрешено индексировать документ;

follow– разрешено следовать по ссылкам;

all– эквивалентно употреблению indexи followодновременно (запи

сывается через запятую), то есть разрешено индексировать данную страни

Проверка ссылок

цу и все ссылки, исходящие из нее.

seo
5th Фев 2011
Теги:
seo

Написать ответ

seo
 
seo
Все права защищены © 2023 Joomla портал
 
 
seo