Окно Dictionaries
Рис. 2.183. Окно Dictionaries, вкладка Validator 1
Глава 3
Работа с поисковыми
системами и каталогами
Обзор поисковых систем ………….. 280
Обзор наиболее известных
каталогов ……………………………….. 313
Программы для автоматического
заполнения форм ……………………. 323
Сетевые средства регистрации …. 338
Программырегистраторы ……….. 354
Работа с поисковыми системами и каталогами
Обзор поисковых систем
Российские поисковые системы
Яndex
Поисковая машина Яndex (http://www.yandex.ru/) обладает наибольшей в рос
сийской части Internet базой данных и развернутой системой формирования зап
роса. Ею индексируется информация российских (домены RU и SU) и зарубежных
серверов, имеющих в своем составе страницы, написанные на русском языке.
Дата официального открытия Яndex – 23 сентября 1997 года. Идея, разработ
ка и техническое обеспечение проекта принадлежат компании с одноименным
названием.
Яndex – это полнотекстовая информационнопоисковая система, учитываю
щая морфологию русского языка. Таким образом, в индекс попадают все слова,
найденные на Webстранице, за исключением самых частотных слов русского и
английского языков (стопслов). Все лексические единицы, попавшие в индекс,
доступны для поиска. Адресом слова в Яndex являются документ (точнее, его
URLадрес), номер предложения и номер слова внутри предложения. Кроме
страниц сайтов, поиск идет по новостям информационных агентств и по товарам
электронных магазинов.
Обнаружив новую или измененную страницу, Яndex ее индексирует. В этом
случае страница разбивается на элементы (текст, заголовки, подписи к картин
кам, ссылки и т. д.), содержание которых заносится в индекс. При этом учитыва
ются позиции слов, то есть их положение в документе или его элементе. Сам до
кумент в базе не хранится.
Яndex индексирует страницы по их истинным адресам. Это значит, что, если
на странице стоит перенаправление (например, с помощью метатэга HTTPEQUIV=“
Refresh”), робот воспримет его как ссылку на новый адрес и поставит
ее в очередь на индексирование. То же самое произойдет, если в одном из фрей
мов будет стоять ссылка на другой сервер. В частности, если эта ссылка находится
вне доменов, разрешенных по умолчанию, страница не будет проиндексирована.
Робот Яndex хранит дату последнего обхода каждой страницы, дату ее измене
ния, присланную Webсервером, и информацию о времени внесения последних
изменений в базу поиска (дату индексации). Он оптимизирует обход Сети таким
образом, чтобы чаще посещать наиболее изменяемые серверы.
Яndex индексирует документ полностью: текст, заголовок, подписи к картин
кам, описание (description), ключевые слова и некоторую другую информацию.
Робот работает со стандартными ссылками языка HTML (HREF, LINKи FRAME),
то есть так, как работал бы пользователь с отключенными Java и JavaScript.
Обзор поисковых систем
Поиск учитывает все морфологические формы слов запроса по правилам
русского языка. Например, при запросе «идти» в результате поиска будут най
дены ссылки на документы, содержащие слова: «идти», «идет», «шел», «шла»
и т. д. На запрос «окно» будет выдана информация, содержащая и слово «окон»,
а на запрос «отзывали» – документы со словом «отозвали». Таким образом,
можно подавать запрос на естественном языке, представляя область поиска
лишь в общем виде.
При этом поиск не ограничен только словами или фразами. Яndex отыщет по
названию Webстраницу компании или файл с нужной картинкой.
Страница поиска Яndex (рис. 3.1) позволяет задать фразу для поиска. Сузить
область поиска до рамок тематических разделов можно с помощью каталога (ниж
няя часть окна), а также переключателя Везде – Каталог – Новости – Маркет –
Энциклопедии – Картинки. Его позиция Каталог ведет на страницу Яndex.
Каталог (http://yaca.yandex.ru/) – см. рис. 3.2, – где, кроме разделов, есть воз
можность выбора географического региона, справочной информации и типа
сайта.
Рис. 3.1. Страница поиска Яndex
Позиция Новости приведет на страницу Яndex.Новости (http://news.yandex.
ru/) – рис. 3.3. Яндекс.Новости – первая российская служба автоматической об
работки и систематизации новостей, предоставляемых ее партнерами – ведущи
Работа с поисковыми системами и каталогами
Рис. 3.2. Страница поиска Яndex.Каталог
ми мировыми и российскими СМИ. Поступающая информация анализируется
компьютерной программой, которая объединяет содержательно близкие новости
в сюжеты и выделяет главные темы дня.
Автоматическое формирование сайта гарантирует беспристрастное отраже
ние информационной картины дня. Отсутствие человеческого вмешательства
позволяет объективно организовывать сюжеты, помещая рядом сообщения, ко
торые могут содержать совершенно разные точки зрения. Таким образом пользо
ватель получает возможность сравнить, как одно и то же событие отражено в раз
личных СМИ. Поиск доступен не только по свежим новостям, но и по огромному
архиву информационных сообщений, ведущемуся с 2000 года.
5th Фев 2011
|
Теги:
|