Joomla портал
seo seo Subscribe
0
seo

При этом в качестве адрес

ной информации можно применять путь и имя файла, адрес Webстраницы. По

такой схеме действуют разработчики многих поисковых систем, например, одной

из самых известных в Интернет – AltaVista компании Dec.

Недостатки указанного способа очевидны при использовании любых языков,

в которых слова имеют словоформы, то есть изменяются по числам, родам, паде

жам, временам и др. Пользователь, начиная поиск, вынужден либо вспоминать,

как точно выглядела искомая лексическая единица, либо добросовестно скло

нять и спрягать слова, чтобы получить полную парадигму.

Частичное решение проблемы – применение шаблонов, например, символа *

(астериск) в конце слова. Такой шаблон неплохо подходит для английского язы

ка, где большинство словоформ образуется за счет добавления окончаний s, ed

и ing; впрочем, но эта уловка полностью не спасает от «мусора» в результате по

иска. С русским языком все обстоит гораздо сложнее. Найти с помощью шаблона

многие слова невозможно в принципе, а именно:

слова, у которых в разных формах меняется основа: идти – шел, плохо –

хуже, он – его, человек – люди, ребенок – дети;

слова с большим количеством словоформ. Привести список всех слово

форм русского глагола (с причастиями и деепричастиями – до 250 различ

ных форм) человеку, у которого нет лингвистического образования, очень

трудно. Понять, все ли словоформы из этого списка охватываются шабло

ном * – еще труднее;

слова с беглыми гласными и чередованиями (искать – ищу, окно – окон,

расти – рос);

короткие слова (из трехчетырех букв): дом, хор и т. п. Во всех языках, в том

числе и в русском, существует общая закономерность: чем короче слово,

тем чаще оно используется. Применение шаблона * для поиска такой лек

сики приводит к большому количеству ненужных ссылок в списке найден

ных документов.

Существует два противоположных подхода к реализации поиска. Первый –

«демократический», при котором поиск должен быть настолько прост, чтобы лю

бой неподготовленный человек мог, не испытывая затруднений, сформулировать

вопрос и вскоре получить на него приемлемый ответ. Второй – «элитарный», при

котором поиск является тонким инструментом, требующим квалифицированно

го обращения. Оба подхода справедливы, чем и обусловлено наличие у всех круп

ных поисковых машин в Internet двух поисковых страниц – для обычного и рас

ширенного поиска.

Полнотекстовый поиск

Когда говорят о полнотекстовом поиске, имеют в виду поиск по всем текстовым

полям документа. Под текстом подразумевается набор слов (выделенная по неко

торым правилам последовательность букв), чисел и меток (комбинации букв и

цифр или букв разных алфавитов). Текстовый документ, как правило, имеет

внутреннюю структуру – деление на параграфы, отступ для заголовка, подписи,

Этапы большого пути

таблицы. Текстовые редакторы позволяют делать эту структуру достаточно

сложной: разбивать текст на колонки, выравнивать его, создавать списки и т. д.

Часто структуру документа при отсутствии жесткой регламентации опреде

ляет внутренняя логика. Так, вверху делового письма обычно стоят реквизиты

адресата, внизу – подпись и число. Несколько иначе дело обстоит с бланками –

в них поля заданы строго. Язык HTML, принятый в Internet как стандарт, поми

мо разметки информации, предусматривает разметку внутренней структуры: за

головка, тела документа, ключевых слов.

В задачу полнотекстового поиска наряду с дешифровкой разных форматов

(это могут быть текстовые поля баз данных, файлы стандартных форматов –

TXT, DOC, HTML, RTF, XLS) входит понимание внутренней структуры текста.

В идеальном случае поисковая система должна подчиняться настройке на опре

деленные текстовые структуры. Эта настройка может производиться как фор

мальным описанием данных, так и самообучением системы с обратной связью.

Учет морфологии

Системы, разработанные с учетом морфологии языка, способны дифференциро

вать слова по формам и выполнять анализ с использованием всего спектра слово

изменений.

По способу образования словоформ русский язык – флективный, то есть в нем

существуют флексии (от лат. flexio – сгибание), или окончания, выражающие грам

матическое значение при словоизменении (склонении, спряжении). Русский язык

относится также к классу синтетических языков: в слове объединено и лексиче

ское, и грамматическое значение.

Слово во всей совокупности его лексических значений называется лексемой (от

греч. lexis – слово, выражение). Лексема – это единица лексического уровня язы.

ка; система словоформ, относящихся к одной лексеме, называется ее парадигмой.

Другими словами, парадигма слова – это образец типа склонения или спряжения,

совокупность всех словоформ, полученных при изменении слова по числам, паде

жам, родам и временам. Наиболее сложную парадигму в русском языке имеют гла

голы. У неизменяемых слов лексема и словоформа совпадают. В словарях каждая

лексема представлена одной из словоформ, которая называется словарной или ис

ходной.

seo
5th Фев 2011
Теги:
seo

Написать ответ

seo
 
seo
Все права защищены © 2023 Joomla портал
 
 
seo