Такой подход повысит эффективность поиско
вых машин и позволит им предлагать результаты поиска на языке, предпочитае
Метаданные
мом пользователем, независимо от построения запроса. Например, следующие
ссылки предлагают поисковой машине французскую и немецкую версии:
type=“text/html”
href=“mydoc-fr.html” hreflang=“fr”
lang=“fr” title=“La vie souterraine”>
type=“text/html”
href=“mydoc-de.html” hreflang=“de”
lang=“de” title=“Das Leben im Untergrund”>
Указанным тэгом определяется связь. Хотя он может быть представлен неогра
ниченное число раз, его присутствие допускается только в разделе HEADдокумен
та. Несмотря на то, что тэг LINKне имеет содержимого, он является носителем ин
формации об отношениях, которая может представляться агентами пользователей
(браузерами) различными способами, например, в виде панели с выпадающим
списком ссылок.
Таким же способом с помощью тэга LINK задаются ссылки на версии доку
мента для другого носителя (например, PDF) и, если документ является частью
набора, ссылки на соответствующую начальную точку для просмотра набора.
Начало набора
Наборы документов, или представлений систем обработки текстов, часто перево
дятся в наборы документов HTML. Для поисковых машин полезно указать ссыл
ку на начало набора в дополнение к тому, что страница попала в результаты поис
ка. Вы можете помочь поисковым системам, применив тэг LINK, имеющий
атрибуты REL=“begin”и TITLE=, как показано в следующем примере:
TYPE=“text/html”
HREF=“page1.html”
TITLE=“Iauay oai.ey ioiineoaeuiinoe”>
Инструкции для роботов – файл robots.txt
Алгоритмы работы многих поисковых машин предусматривают возможности ог
раничения действий роботов. Это достигается с помощью файла robots.txt и тэга
METAв документах HTML.
Файл robots.txt объясняет роботу поисковой машины, что надо индексировать,
а что не стоит. Зачем, например, индексировать служебные файлы, скажем, ста
тистические отчеты?
Файл содержит набор команд, которые позволяют закрыть от индексирова
ния отдельные каталоги узла. Обычно закрываются каталоги, содержащие
скрипты, служебную информацию и т. п. Отчасти это повышает контрастность
значимых документов узла в поисковой системе. К тому же поисковые машины
нередко вводят ограничение на число ресурсов, регистрируемых для одного сер
Этапы большого пути
вера. Некоторые – так, например, действовал робот поисковой системы Lycos, –
вообще не проводят индексирования, если указанный файл отсутствует.
Итак, если вы поддерживаете работу сервера с доменным именем www.mysite.ru,
то содержимое файла robots.txt должно быть доступно по адресу: http://
www.mysite.ru/robots.txt, то есть данный файл следует загрузить в корневой ката
лог вашего сайта. Когда робот просматривает Webсайт, сначала он проверяет
наличие документа http://www.mysite.ru/robots.txt. Если таковой обнаружен, ана
лизируется его содержимое и выясняется, позволено ли загрузить документ. Вы
можете настроить файл robots.txt для конкретных роботов и запретить доступ
к определенным каталогам или файлам.
На одном сайте может быть только один файл robots.txt. Не следует помещать
файлы с данным именем в каталоги, поскольку робот их не найдет. Обратите вни
мание, что при адресации в Internet учитывается регистр, поэтому название
robots.txt должно быть задано в нижнем регистре.
Файл robots.txt – это обычный текстовый документ, содержащий одну или
несколько записей, разделенных пустыми строками, как показано в следующем
примере:
# robots.txt for http://www.mysite.ru
User-agent: *
Disallow: /cgi-bin/maillist/
Disallow: /tmp/
Disallow: /product1.html
User-agent: aport
User-agent: scooter
Disallow:
Вот пример файла robots.txt, полностью запрещающего доступ к сайту всем
роботам:
User-agent: * # I.eiaiyaony ei anai .iaioai.
Disallow: / # Cai.aoeou eiaaenaoe. anao no.aieo.
Каждая запись должна начинаться с указания переменной User-agent от
дельной строкой. Таких строк может быть и несколько. Значением переменной
User-agent задается оригинальное имя программыробота соответствующей
поисковой системы, для которой предназначена информация.
Согласно спецификации на файл robots.txt, текст в нем чувствителен к регис
тру, так что следует записать именно User-agent, а не User-Agent. Трудно
сказать, вызывает ли неверное написание проблемы у роботов поисковых систем,
но для надежности лучше соблюсти требования спецификации.
Имя робота может быть похоже на название соответствующей поисковой систе
мы, а может и сильно отличаться от него. Далеко не всегда оно соответствует наз
ванию механизма поиска. Поэтому нельзя просто написать AltaVista в Useragentи
ожидать, что AltaVista исключит указанные вами страницы. Имя робота
указывается без учета регистра и не включает информацию о версии. Можно пе
Метаданные
речислить несколько имен через пробел. Символ * является маской и означает:
«для всех роботов».
5th Фев 2011
|
Теги:
|