Описание ресурса делается либо составителями каталога (как, напри
мер, на Yahoo!), либо тем, кто хочет включить его в каталог. В поисковой системе
все происходит иначе.
Поисковые машины – это полностью автоматизированные системы, сканиру
ющие сеть Internet. Ее сетевой агент (робот, «паук», «червяк») обходит все задан
ные ему серверы и собирает у себя индекс, то есть информацию о том, что и на
какой странице было найдено. Сетевые агенты – это, по сути, программы, кото
рые исследуют структуру гипертекста в Internet. Переходя от одного документа
к другому, роботы передают собранную информацию поисковой системе, кото
рая заносит ее в свою базу данных.
Основными функциями поисковых систем являются следующие:
•
сбор статистики. Первые роботы были созданы именно для этого и опреде
ляли число страниц на сервере, типы присутствующих на нем файлов, их
соотношения, средний размер страницы и т. д.;
•
обслуживание. Имеются в виду такие функции, как сбор информации
о неисправных ссылках и обновленных документах, проверка ссылок
сайтов, авторы которые самостоятельно подали регистрационную заяв
ку, и др.;
•
поиск новых ресурсов. Необязательно регистрировать сайт собственно
ручно – это может сделать робот, поскольку он постоянно ищет новые ре
сурсы. Однако может уйти много времени.
Полнотекстовые поисковые машины индексируют все слова, найденные на
Webстранице, за исключением стопслов (обычно малоинформативных и имею
щих незначительную частоту употребления, например, союзов и предлогов).
Каждый день поисковые системы «прочесывают» Webсайты и сохраняют
текстовую информацию в своих огромных каталогах, чтобы завсегдатаи Internet
могли по ключевым словам получить список Webстраниц. Как правило, в ре
зультате находятся сотни соответствующих запросу ресурсов, но отображаются
они на экране «порциями» по 10–25 записей. В первую очередь выведены наибо
лее подходящие, согласно оценке поисковой системы, страницы.
Этапы большого пути
В связи с этим становится понятным нарастание интереса разработчиков
Webузлов к поисковым службам, которые оказываются в состоянии обеспечить
до 40%, а в некоторых случаях, и до 70% обращений к сайту.
Использование поисковых систем для продвижения Webузла не может га
рантировать успеха, если разработчик не учел целый ряд тонкостей этой проце
дуры. Так, далеко не всегда очевидно, какие из поисковых систем наиболее зна
чимы для увеличения посещаемости. Исчерпывающий ответ на этот вопрос может
дать только анализ статистики посещений узла после регистрации. Кроме того,
чтобы обеспечить практическую, а не только теоретическую доступность своего
сайта из списка отклика по тому или иному запросу, необходимо учитывать осо
бенности функционирования отдельных сервисов.
Поиск информации в русскоязычной части Internet облегчает существование
специальных поисковых средств. Принцип их действия аналогичен работе тра
диционных баз данных, когда в ответ на ввод ключевого слова выдается перечень
документов, содержащих искомое понятие. Эти системы являются, по сути, база
ми таких слов, пополняемыми при периодическом сканировании содержимого
серверов Internet. С помощью специальных программроботов поисковые систе
мы регулярно обследуют Internet, фиксируя, как вновь появившиеся, так и об
новленные ресурсы, и удаляя сведения о ресурсах, вышедших из употребления.
Этот колоссальный материал с указанием ссылок на то, где хранится каждое сло
во, содержится в виде гигантских индексных файлов, к которым и обращаются
поисковые системы при конкретном запросе.
Достоинства и недостатки поисковых машин определяются различными ха
рактеристиками. Принципиальным является то, насколько полно система обсле
дует документы: все ли слова заносятся в индексные файлы или же только терми
ны из названий, заголовков, первых нескольких строк или страниц текста, и т. д.
Важна также периодичность обновления данных и критерии оценки понятий при
определении степени их соответствия запросу. Не последнюю роль играют про
стота и удобство интерфейса, возможность использовать булевы операторы (опе
раторы математической логики) и операторы расстояния между словами в тексте
документа, а также дополнительные сервисные функции, например, поиск ново
стей, музыкальных файлов, товаров, и т. д.
В обслуживание, осуществляемое информационнопоисковой системой, входит
предварительная обработка текста, в том числе составление индекса, по которому
затем происходит поиск. Такая поисковая система может быть организована как база
данных с текстовыми полями. Другой вариант организации – работа с внешними
текстами. В этом случае тексты сохраняют первоначальный вид, то есть остаются
файлами в файловой системе, страницами на сервере или полями какойто другой
базы данных, а индекс снабжается лишь ссылками на соответствующие источники.
Работа с поисковыми средствами требует от пользователя определенного
опыта и навыков.
Индекс поисковой системы
Простейший способ организации индекса для поисковой системы таков: по опре
деленным правилам (используя пробелы, знаки препинания) выделяется и хра
Анонсирование в поисковых системах
нится некоторая последовательность из букв и цифр.
5th Фев 2011
|
Теги:
|