Все новости от 29 сентября 1999 г. ABBYY делится технологией полнотекстового поиска
28 сентября, в первый день выставки SofTool'99, компания ABBYY объявила о выпуске ABBYY Retrieval & Morphology Engine (ABBYY R&M Engine) -- инструментария разработчика для интеграции полнотекстового поиска и лингвистических технологий во внешние приложения. Этот пакет протестирован на совместимость с различными языками программирования: Microsoft Visual C++ 4.х и выше; Microsoft VB 5.0 и выше; Delphi 3.0 и выше. Помимо полнотекстового поиска ему доступны следующие функции морфологического анализа: проверка орфографии, лемматизация (нахождение начальной формы слова), генерация парадигмы (совокупности всех словоформ слова) и создание пользовательских словарей.
ABBYY R&M Engine "понимает" семь языков (см. таблицу), позволяет индексировать документы в форматах ТХТ и HTML, создает достаточно компактный индекс (около 30% от размера источника) и обеспечивает высокую скорость индексации, которая составляет около 7 Мб/мин для одноязычного текста.
Возможные кодировки:
· для русского языка -- Windows-1251, KOI8-R, Cyrillic ISO (ISO-28595), OEM-866;
· для украинского -- Windows-1251;
· для остальных поддерживаемых языков - Windows-1252.
Пакет требует от 3 до 15 Мб свободного пространства на жестком диске для лингвистической базы данных (в зависимости от количества устанавливаемых языков) и работает на ПК, использующих процессор i486DX и выше и функционирующих под управлением Windows 95/98 NT для клиентской части и Windows NT -- для серверной.
Предлагаемый инструментарий опробован компанией ABBYY в целом ряде своих продуктов: ABBYY Lingvo (англо-русско-английский электронный словарь), ABBYY FineReader (система оптического распознавания символов), ABBYY Internet Index Server (приложение, осуществляющее поиск на Web-сайте компании ABBYY). Некоторые его компоненты применяются в разработке реально действующих приложений: для создания архива "Независимой газеты", архива ARCIS компании Siemens Nixdorf, в одном из гуманитарных проектов Фонда Сороса и т. д.
Стоимость полнофункциональной лицензии на использование ABBYY R&M Engine составляет $890, стоимость усеченной версии (ABBYY Morphology Engine) -- $590. Испытательные версии (в них внесены некоторые изменения, препятствующие использованию пакета в коммерческих целях) предоставляются бесплатно.
Словарный запас ABBYY R&M Engine
Язык Количество словарных форм
Английский 70 000
Испанский 81 000
Итальянский 143 000
Немецкий 102 000
Русский 140 000
Украинский 120 000
Французский 45 000
|