Искать по-русски'2000

Компания «МедиаЛингва», продолжая совершенствовать свою линейку поисковых программных продуктов, на днях представила дальнейшее развитие системы «Следопыт». «Следопыт для Microsoft SQL Server 2000» позволяет осуществлять полнотекстовый поиск по SQL-базам, содержащим текстовую информацию на русском языке.

В системах поиска с учетом морфологии русского языка существуют некоторые ограничения: например, на запрос «глубины океана» не будет найдено сходное по смыслу выражение «океанские глубины», так как слова «океан» и «океанский» являются разными частями речи. Системы управления базами данных предлагают ряд технологических решений этой проблемы. Одно из них — системы полнотекстового поиска по текстовым полям БД. С помощью таких систем пользователь получает возможность сочетать в одном SQL-запросе обычные средства поиска по таблицам БД с интеллектуальными средствами поиска фрагментов текста в полях базы.

Компания Microsoft включает в комплект поставки MS SQL Server специальный компонент — систему полнотекстового поиска по базе данных — начиная с версии 7.0. Он позволяет находить нужные записи по словам и словосочетаниям в различных грамматических формах, а также включает средства поиска записей, «похожих» на заданный фрагмент текста. Чтобы поиск производился корректно, поисковая система должна иметь лингвистические модули для всех языков, с которыми работают пользователи. В стандартную конфигурацию Microsoft SQL Server 2000 входит комплект таких модулей для основных западноевропейских и восточных языков. «Следопыт для Microsoft SQL Server 2000» дополняет этот список русским языком: этот модуль, основанный на технологии нечеткого поиска текстовой информации, разработанной компанией « МедиаЛингва», выполняет запрос на русском и английском языках с учетом грамматики.

Нечеткий поиск выполняется методом вычисления «степени близости» каждой записи БД и исходного запроса. Для начала из запроса удаляются «шумовые» слова, не влияющие на его смысл (наречия, местоимения и т.п.). Из оставшихся слов выделяются наиболее важные — те, что появляются в запросе несколько раз. Далее выявляются взаимосвязи между ними. Например, если выражение «океанские глубины» встречается дважды, то это не то же самое, что дважды повторяющиеся слова «океан» и «глубина». Наконец, аналогичным образом выявляются взаимосвязи между более важными и менее важными словами. В результате будут выданы все записи, содержащие хотя бы некоторые из слов запроса, причем вверху этого списка окажутся те из них, что содержат статистически наиболее близкие к тексту запроса участки. Эффективность поиска не зависит от лексики предметной области и одинакова как для газетных и деловых текстов, так и для информации по узким тематическим направлениям.

Та же технология используется и в автономной системе «Следопыта», предназначенной для «смыслового» поиска информации в русских и английских текстах по запросам на естественном языке. ZDNet высоко оценивает данное ПО, отметив его пятью звездами в своем рейтинге.

Пользователи версии «Следопыт для MS SQL Server 7.0» могут бесплатно заменить ее на аналогичный программный продукт для Microsoft SQL Server 2000. Тем же, кто впервые приобретает пакет, за «Следопыт для MS SQL Server 2000» и пять лицензий к нему придется заплатить 780 $.

Обсуждение и комментарии

	vIv 29 Nov 2000 3:55 PM
Вспоминая анальные мультики... Это, видимо, будет покруче той пурги, что Рндекс выдаёт в качестве "результатов поиска" :))))

← октябрь 2000

20 21 22 23 24 27 28 29 30

декабрь 2000 →