);
•
внешний вид шрифта, которым набраны в тексте искомые слова (размер,
жирность, цвет);
•
количество внешних ссылок из Internet на данный документ. Разработчи
ки Апорта называют это количество Site Rank (Ранг сайта) или Page Rank
(Ранг страницы);
•
использование искомого слова в тексте ссылок из Internet на данный до
кумент.
Окончательный процент соответствия документа запросу вычисляется как
некая интегральная функция от всех этих показателей.
Последний из указанных критериев имеет самостоятельное значение. Если
на какойто сайт есть ссылка, состоящая, например, из слов «современная му
зыка», то естественно будет предположить, что эти слова (которые выбрал че
ловек, писавший ссылку) могут достаточно точно описывать содержимое сайта.
Работа с поисковыми системами и каталогами
Поэтому при поиске по слову «музыка» данный сайт должен получить доволь
но высокое место, поскольку по этому слову существуют ссылки на него с дру
гих ресурсов. Подобный подход значительно улучшает качество сортировки
найденных документов. Кроме того, он приносит еще один очень интересный
результат.
Представьте себе, что робот, добавляя в базу некий документ с сайта X, нашел
ссылку на документ с другого сайта Y, который пока отсутствует в базе Апорта.
Благодаря возможности находить документы и сайты по словам из ссылки Апорт
сможет теперь найти сайт Y, хотя он еще не индексировался, а может быть, и не
будет индексироваться (например, зарубежный ресурс). Эта замечательная воз
можность позволяет находить гораздо больше сайтов меньшими усилиями, ис
пользуя запросы с русскими словами даже в зарубежных ресурсах, которые
Апорт не индексирует.
Таким образом, индексирование ссылок, которое требует небольшого допол
нительного времени, позволяет системе значительно расширить поисковое про
странство. В итоге Апорт не только быстро добирается до различных «закоул
ков» русскоязычной части Internet, но и делает весьма широко доступной
зарубежную Сеть, поскольку на многие интересные иностранные ресурсы есть
ссылки и с российских сайтов.
В список ресурсов, индексируемых Апортом, может входить как целый сервер
(например, www.rol.ru), так и его часть (например, www.company.ru/~vasya/). Пос
ледняя, однако, просуществует только до тех пор, пока родительский сервер не
будет проиндексирован (www.company.ru в предыдущем примере). Родительский
сервер поглотит дочерний ресурс, и тот станет его частью, потеряв самостоятель
ный статус.
В каждом самостоятельном ресурсе (обычно это сервер) периодически прове
ряется появление новых документов, изменение или удаление старых. Новые до
кументы добавляются в базу данных, измененные удаляются из нее и добавляют
ся уже в новом виде. Документы, которые не нашлись на сервере, из базы данных
Апорта удаляются не сразу. Удаление происходит в том случае, если документ не
доступен на сервере при нескольких обновлениях подряд. Таким образом, в це
лом база данных Апорта всегда содержит некоторое количество удаленных доку
ментов. Такой «исторический шлейф» не вреден, а иногда даже и полезен. Сохра
няя его, Апорт позволяет иногда получить реконструкцию документа, который
в оригинале уже отсутствует в Internet.
Для организации на своем сайте дополнительного сервиса – поиска в Internet –
можно установить одну из поисковых форм Апорта (http://aport.ru/forms/
forms.htm). Предлагаются два вида поисковых форм: простые и раскрывающие
ся, которые устанавливаются на сайте в виде картинки и раскрываются в полно
ценную поисковую форму при наведении на них курсора (рис. 3.13).
Чтобы добавить адрес своего сайта в базу поисковой системы Апорт, восполь
зуйтесь ссылкой Добавить сайт (http://www.aport.ru/addurl.php).
Обзор поисковых систем
Рис. 3.13. Одна из поисковых форм, раскрывающаяся при наведении на нее курсора
Поиск@Mail.ru
Поисковая машина Поиск@Mail.ru (http://www.mail.ru/) была запущена в эксп
луатацию в июле 2003 года. Ее владелец – компания Mail.ru. Компании принад
лежат крупнейшая электронная почтовая служба России @Mail.ru, одноименный
портал, объединяющий более 20 различных сервисов и информационных проек
тов, популярный Internetаукцион Molotok.ru, торговая площадка Torg.ru. В со
став портала вошел также старейший каталог сайтов List.ru, некоторые службы
рассылок и знакомств и др. Портал Mail.ru предоставляет пользователям практи
чески весь спектр сервисов, существующих на сегодня в сети: почту, поиск, рей
тинг и счетчик, бесплатный хостинг, почтовые рассылки, чаты, форумы, открыт
ки, знакомства и многое другое. Особенно полно представлены сервисы,
направленные на коммуникацию между пользователями. Поиск@Mail.ru ищет
на сайтах всего мира с учетом русской морфологии, исправляет опечатки и хра
нит персональную историю запросов и ответов. Несмотря на свою молодость, по
исковая система стремительно набирает популярность, во многом благодаря до
верию людей, давно пользующихся услугами почтовой службы Mail.ru.
Страница поиска (рис. 3.14) позволяет задать поисковую фразу, выбрать те
матический раздел каталога и дополнительно сузить область поиска при помощи
переключателя Интернет – Картинки – Каталог – Товары и лоты – Софт –
Словари.
5th Фев 2011
|
Теги:
|