При этом в качестве адрес
ной информации можно применять путь и имя файла, адрес Webстраницы. По
такой схеме действуют разработчики многих поисковых систем, например, одной
из самых известных в Интернет – AltaVista компании Dec.
Недостатки указанного способа очевидны при использовании любых языков,
в которых слова имеют словоформы, то есть изменяются по числам, родам, паде
жам, временам и др. Пользователь, начиная поиск, вынужден либо вспоминать,
как точно выглядела искомая лексическая единица, либо добросовестно скло
нять и спрягать слова, чтобы получить полную парадигму.
Частичное решение проблемы – применение шаблонов, например, символа *
(астериск) в конце слова. Такой шаблон неплохо подходит для английского язы
ка, где большинство словоформ образуется за счет добавления окончаний s, ed
и ing; впрочем, но эта уловка полностью не спасает от «мусора» в результате по
иска. С русским языком все обстоит гораздо сложнее. Найти с помощью шаблона
многие слова невозможно в принципе, а именно:
•
слова, у которых в разных формах меняется основа: идти – шел, плохо –
хуже, он – его, человек – люди, ребенок – дети;
•
слова с большим количеством словоформ. Привести список всех слово
форм русского глагола (с причастиями и деепричастиями – до 250 различ
ных форм) человеку, у которого нет лингвистического образования, очень
трудно. Понять, все ли словоформы из этого списка охватываются шабло
ном * – еще труднее;
•
слова с беглыми гласными и чередованиями (искать – ищу, окно – окон,
расти – рос);
•
короткие слова (из трехчетырех букв): дом, хор и т. п. Во всех языках, в том
числе и в русском, существует общая закономерность: чем короче слово,
тем чаще оно используется. Применение шаблона * для поиска такой лек
сики приводит к большому количеству ненужных ссылок в списке найден
ных документов.
Существует два противоположных подхода к реализации поиска. Первый –
«демократический», при котором поиск должен быть настолько прост, чтобы лю
бой неподготовленный человек мог, не испытывая затруднений, сформулировать
вопрос и вскоре получить на него приемлемый ответ. Второй – «элитарный», при
котором поиск является тонким инструментом, требующим квалифицированно
го обращения. Оба подхода справедливы, чем и обусловлено наличие у всех круп
ных поисковых машин в Internet двух поисковых страниц – для обычного и рас
ширенного поиска.
Полнотекстовый поиск
Когда говорят о полнотекстовом поиске, имеют в виду поиск по всем текстовым
полям документа. Под текстом подразумевается набор слов (выделенная по неко
торым правилам последовательность букв), чисел и меток (комбинации букв и
цифр или букв разных алфавитов). Текстовый документ, как правило, имеет
внутреннюю структуру – деление на параграфы, отступ для заголовка, подписи,
Этапы большого пути
таблицы. Текстовые редакторы позволяют делать эту структуру достаточно
сложной: разбивать текст на колонки, выравнивать его, создавать списки и т. д.
Часто структуру документа при отсутствии жесткой регламентации опреде
ляет внутренняя логика. Так, вверху делового письма обычно стоят реквизиты
адресата, внизу – подпись и число. Несколько иначе дело обстоит с бланками –
в них поля заданы строго. Язык HTML, принятый в Internet как стандарт, поми
мо разметки информации, предусматривает разметку внутренней структуры: за
головка, тела документа, ключевых слов.
В задачу полнотекстового поиска наряду с дешифровкой разных форматов
(это могут быть текстовые поля баз данных, файлы стандартных форматов –
TXT, DOC, HTML, RTF, XLS) входит понимание внутренней структуры текста.
В идеальном случае поисковая система должна подчиняться настройке на опре
деленные текстовые структуры. Эта настройка может производиться как фор
мальным описанием данных, так и самообучением системы с обратной связью.
Учет морфологии
Системы, разработанные с учетом морфологии языка, способны дифференциро
вать слова по формам и выполнять анализ с использованием всего спектра слово
изменений.
По способу образования словоформ русский язык – флективный, то есть в нем
существуют флексии (от лат. flexio – сгибание), или окончания, выражающие грам
матическое значение при словоизменении (склонении, спряжении). Русский язык
относится также к классу синтетических языков: в слове объединено и лексиче
ское, и грамматическое значение.
Слово во всей совокупности его лексических значений называется лексемой (от
греч. lexis – слово, выражение). Лексема – это единица лексического уровня язы.
ка; система словоформ, относящихся к одной лексеме, называется ее парадигмой.
Другими словами, парадигма слова – это образец типа склонения или спряжения,
совокупность всех словоформ, полученных при изменении слова по числам, паде
жам, родам и временам. Наиболее сложную парадигму в русском языке имеют гла
голы. У неизменяемых слов лексема и словоформа совпадают. В словарях каждая
лексема представлена одной из словоформ, которая называется словарной или ис
ходной.
5th Фев 2011
|
Теги:
|