В этом случае запись описывает режим доступа по умолча
нию для любого робота, неупомянутого явно в других записях. В файле robots.txt
не может быть нескольких таких записей.
В табл. 1 приведены имена роботов некоторых поисковых систем.
Таблица 1. Имена роботов поисковых систем
Поисковая система или сервис проверки ссылок Имя робота
AltaVista (http://www.altavista.com/) Scooter
AOL (http://search.aol.com/) Slurp
EuroSeek (http://www.euroseek.com/) Arachnoidea
Excite (http://www.excite.com/) ArchitextSpider
EZResult (http://www.ezresult.com/) Mozilla
Fast (http://www.fastsearch.com/) Fast
Google (http://www.google.com/) Googlebot
Hotbot (http://www.hotbot.com/) Slurp
Infoseek (http://www.infoseek.com/) – GO.com (http://go.com/) Infoseek Sidewinder;
Ultraseek
iWon (http://www.iwon.com/) Slurp
LookSmart (http://www.looksmart.com/) Slurp
Lycos (http://www.lycos.com/) Lycos
MSN (http://www.msn.com/) Slurp
Netscape Search (http://search.netscape.com/) Googlebot
Northern Light (http://www.northernlight.com/) Gulliver
Teoma (http://www.directhit.com/) Grabber
W3C Link Checker (http://validator.w3.org/checklink/) W3Cchecklink
WebCrawler (http://www.webcrawler.com/) ArchitextSpider
Yahoo! (http://www.yahoo.com/) Googlebot
Rambler (http://www.rambler.ru/) StackRambler
Апорт (http://www.aport.ru/) Aport
Яndex (http://www.yandex.ru/) Yandex
Начиная со следующей строки после указания переменной User-agent, оп
ределяются собственно правила поведения робота в виде задания значений пере
менным Allow(Разрешить) и Disallow(Запретить).
В поле Allowзадается перечень разрешенных для посещения роботами поис
ковых машин каталогов и файлов, а в поле Disallow– перечень закрываемых
каталогов и файлов. Это может быть полный или частичный путь. Любой URL
адрес, начинающийся с этого значения, нельзя будет загрузить. Например, за
пись Disallow: /help запрещает доступ к /help.html и /help/index.html, в то
время как запись Disallow: /help/ запретит доступ к /help/index.html, но
разрешит доступ к /help.html.
Если файл находится в корневом каталоге, обязательно включите перед его
именем символ «слеш» – косую черту вправо.
Пустое значение параметра Disallowозначает, что все URL сайта могут быть
проиндексированы. Частая ошибка при написании robots.txt состоит в том, автор
Этапы большого пути
ставит *, чтобы указать, что хочет исключить все файлы в каталоге. Однако пра
вильным будет не включать никаких звездочек в поле Disallow.
В файле robots.txt должно быть, по крайней мере, одно поле Disallow. Сим
вол # предваряет комментарии, необрабатываемые роботами.
В примере, рассмотренном выше, первая запись запрещает индексирова
ние двух каталогов и файла product1.html. Роботу Scooter поисковой системы
AltaVista и роботу Aport поисковой системы Апорт для доступа открываются
все каталоги (поле Disallowпусто). При необходимости закрыть все катало
ги следовало бы написать: Disallow: /. Пустая строка между записями не
обходима.
Очень важно не допускать ошибок в файле robots.txt. В противном случае
конструкции могут не работать, а вы даже не будете знать об этом. Возможно,
некоторые поисковые системы без затруднений разрешат проблемы, возникаю
щие изза различий в синтаксисе, однако абсолютной гарантии нет. Поэтому,
если вы обнаружите ошибку в синтаксисе, исправьте ее и повторно зарегистри
руйте ресурс в поисковых системах. Роботы поисковых машин снова проиндек
сируют ваш сайт и выполнят все указания, имеющиеся в файле robots.txt.
Обратите внимание, что недопустимы строки вида:
Disallow: /tmp/*
или
Disallow: *.gif
Подробное описание стандарта исключений и синтаксиса команд файла
robots.txt вместе с другой полезной информацией о роботах (на английском язы
ке) можно найти по адресу http://www.robotstxt.org/wc/robots.html.
Тэг META для роботов
Файл robots.txt поддерживается практически всеми роботами, однако корневой
каталог сервера может быть недоступен вам. В этом случае для аналогичных це
лей, но лишь в пределах одного документа можно использовать специальные ме
татэги. Они не только решают проблему запрета, но и предоставляют позитивные
возможности для управления индексированием. Это более гибкое средство уп
равления индексацией, чем robots.txt. В частности, в тэге можно дать роботу по
исковой машины предписание не уходить по ссылкам на чужие серверы, напри
мер, в документах со списками ссылок:
Из данного примера видно, что все управление в метатэге сводится к указа
нию двух переменных, а именно NAME и CONTENT. Для переменной CONTENT
в контексте NAME=“robots” допустимо использовать следующие значения
(они могут быть записаны как строчными, так и прописными буквами):
•
index– разрешено индексировать документ;
•
follow– разрешено следовать по ссылкам;
•
all– эквивалентно употреблению indexи followодновременно (запи
сывается через запятую), то есть разрешено индексировать данную страни
Проверка ссылок
цу и все ссылки, исходящие из нее.
5th Фев 2011
|
Теги:
|