На главную страницу AlgoNet В сотрудничестве с ZDNet
АРХИВ СТАТЕЙ 2003-7-11 на главную / новости от 2003-7-11
AlgoNet.ru
поиск

 

Место для Вашей рекламы!

 

Все новости от 11 июля 2003 г.

Говорящие машины становятся ближе к реальности

Техническая сложность, высокая стоимость и низкое качество приложений, которые сдерживали признание и освоение систем распознавания речи, постепенно преодолеваются, и компании начинают предлагать продукты, позволяющие потребителям обращаться к базам данных посредством голосовых команд или переводить электронные письма в монологи или диалоги.

В среду Microsoft выпустила первую общедоступную бета-версию своего ПО Speech Server, которое позволит серверам лучше управлять голосовыми командами. В дополнение к этому компания выпустила третью бета-версию комплекта разработчика Speech Application. Началась и партнерская программа по привлечению независимых разработчиков к продвижению Speech Server, который дебютирует в первом полугодии 2004 года.

Speech Server (прежнее название .Net Speech Platform) представляет собой попытку удешевить создание автоматизированных справочных телефонных систем и согласуется с другими телефонно-компьютерными проектами Microsoft. Автоматизированные справочные системы вроде тех, что используются многими авиакомпаниями, могут стоить порядка миллиона долларов — для большинства предприятий это слишком дорого, отмечает вице-президент отделения речевых технологий Microsoft Кай-Фу Ли. «На сегодняшний день реализован лишь очень малый процент возможностей call-центра», — говорит он.

Тем временем IBM строит демонстрационные приложения для крупных корпораций. Например, финансовая фирма T. Rowe Price установила систему от Big Blue, которая позволяет ее клиентам проводить операции посредством голосовых запросов. «Вы можете сказать: „Хочу совершить сделку”, и система ответит: „Какую именно?”», — поясняет директор по мобильным решениям отделения IBM Pervasive Computing Юджин Кокс.

К концу года компания обещает также представить компьютеры, помогающие поддерживать разговор между двумя людьми, говорящими на разных языках, — например, для киосков обмена информацией между англоговорящими туристами и гидами, говорящими по-китайски. «За последние годы мы добились заметного прогресса в распознавании членов предложения, — рассказывает директор IBM Research по технологиям, связанным с человеческим фактором, Дэвид Нааму. — И рынок начинает положительно реагировать на данную технологию. Мы пересекли тот порог, за которым пользователи будут ее принимать».

К 2010 году IBM в рамках своего проекта Super Human Speech Recognition Project надеется разработать коммерчески выгодные системы, способные стенографировать речь точнее, чем человек. Сейчас уровень ошибок машины, по разным оценкам, в 5-10 раз выше. Значительно улучшилось и качество машинного перевода.

Человечество с самого начала цифровой эры лелеет мечту о говорящих компьютерах, но из-за сложности задачи добиться заметных успехов не удавалось. Задача Тюринга — создание машины, говорящей по-человечески текстовыми сообщениями — сформулирована Аланом Тюрингом еще в период второй мировой войны, но так и не решена.

Просечь наш трёп
Одна из проблем заключается в том, что люди говорят, не придерживаясь строгих правил. Слова «Да», «Ага», «Угу», «Ну да», «Разумеется» и «Ну конечно, Вася» для человека означают одно и то же, но ставят в тупик машину, запрограммированную на прием строго детерминированных данных. При быстрой речи люди обычно используют неправильную грамматику, что еще больше затрудняет машинную интерпретацию. К тому же приходится постоянно бороться с фоновым шумом и решать задачу фильтрации.

Проблема усугубляется еще и тем, что поборники машинной речи сами впадали в заблуждения. Сначала они изучали синтаксис и пытались разработать знающие его машины, что привело к созданию компьютеров, говорящих на собственной версии «ломаного английского». Компании пытались продвигать речь и на ПК, где для нормальной работы вполне хватает клавиатуры, мыши и экрана. «Все же это узкая ниша, как многие функции для рынка секьюрити вроде сканирования радужной оболочки глаза», — говорит аналитик Yankee Group Лаура Дидио. До сих пор распознавание голоса применялось в основном в устройствах для людей с умственными или физическими недостатками, такими как эпилепсия или кистевой туннельный синдром.

Теперь направление исследований и маркетинга изменилось. Вместо того чтобы создавать машину, умеющую говорить, инженеры работают над компьютерами, воспринимающими речь как вероятностную функцию, — на этом основана большая часть работы Microsoft над искусственным интеллектом. Yoda, разрабатываемый Microsoft механизм преобразования речи в текст, превращает то, что произносится голосом, в текстовые сообщения e-mail, изучая наклонности пользователя, рассказывает руководитель группы речевых исследований Microsoft Алекс Асиро.

Yoda не ищет существительное, к которому относится глагол, а «знает», что за определенным сочетанием звуков («встретимся») обычно следует ограниченный набор других знакомых звукосочетаний («в конференц-зале» или «завтра»). Темы обсуждений должны быть ограничены; подобные приложения не могут следить за отклонением от темы или переходом к новой теме. И все же это прогресс. «Метод, которым мы пытаемся научить машины говорить, очень отличается от того, как учатся люди, — говорит Асиро. — Он все еще очень примитивен, но приложения получаются более интеллектуальными, чем существующие сегодня».

Помогает и более качественная аппаратура. Если компьютер имеет доступ к видеоизображению говорящего, то уровень ошибок в зашумленной среде сокращается на 80% и более, утверждает менеджер аудиовизуальных речевых технологий IBM Чалапати Нети. В таких системах компьютер контролирует голосовой ввод по каталогу движений губ и мимики лица. «Во время разговора возникает много визуальной информации», — поясняет Нети. Поэтому многие речевые системы, по всей вероятности, буду оснащаться камерами.

Этюд для голоса и компьютера
Вместо того чтобы вводить речевую технологию в ПК, компании присматриваются к сотовым телефонам, пейджерам и другим устройствам, где клавиатура не слишком удобна. Мало того, что эти рынки растут, сторонники речевых технологий пророчат, что у потребителей, начинающих использовать телефоны для приема данных, возникнет потребность в устройствах ввода другого типа. «В автомобиле можно разместить клавиатуру и дисплей. Места хватит. Но это не самое подходящее место для них», — говорит Кокс.

Одним из наиболее многообещающих устройств, вероятно, станет стандартный телефон. До сих пор большинство систем типа сервер-телефон требовало, чтобы команды или пароли набирали посредством 12-кнопочной панели. Некоторые из них допускают управление голосовыми командами, но требуют от человека многоступенчатого выбора. Автоматические телефонные системы дороги, и срок возврата инвестиций для небольших компаний может измеряться годами, отмечает Ли из Microsoft.

С клиентской стороны Microsoft работает над такими проектами, как Athens, — это ПК, оборудованный системой видео и телефонии. Однако основные доходы будет приносить продажа серверного ПО для этих систем, такого как Speech Server. Большинство подобных серверных систем состоит из трех частей: механизма преобразования речи в текст для превращения голосовых команд в нечто, воспринимаемое компьютером; механизма подсказок, или набора предварительно записанных ответов, направляющих позвонившего; и механизма преобразования текста в речь, который позволяет компьютеру произносить ответы или задавать вопросы, не предусмотренные в готовом наборе подсказок.

«Сейчас существуют отдельные приложения для голоса и для данных, — говорит директор по маркетингу отделения речевых технологий Microsoft Джеймс Мастен. — Мы хотим преобразить ту часть избы, которая относится к телефонии и данным». Однако такие телефонные системы добавляют дополнительный уровень сложности, так как речь, стенографируемую в текст, затем нужно вновь преобразовывать в голос. «Чем больше слов допускается при вводе, тем выше вероятность ошибки, — говорит Нааму. — Если пользователю предоставить слишком большую свободу, он наговорит вам с три короба».

Большинство этих новых приложений базируется на разнообразных стандартах или проектах стандартов, таких как VoiceXML; X + V (xHTML плюс VoiceXML) и SALT (Speech Application Language Tags). Разработку ускоряет и перекрестное лицензирование между компаниями. Например, механизм преобразования текста в речь для Speech Server взят у компании SpeechWorks. А для интеграции сервера в телекоммуникационное оборудование Microsoft воспользуется продуктом Telephony Interface Manager от Intel и Intervoice. «Все это развивается в нужном для call-центров направлении — автоматизированные сервисные центры не смогут без этого обойтись», — убеждена Дидио из Yankee Group. 

 Предыдущие публикации:
2003-04-29   ПО Intel читает по губам
2003-06-02   Исследование: роботы должны стать человечнее
 В продолжение темы:
2003-10-20   Распознавание речи заставляет прислушиваться к себе
2003-10-29   Веб гудит о голосовом плане Microsoft
2004-02-04   Речевой веб-интерфейс близок к стандартизации
Обсуждение и комментарии
Petr Chulkov - petrchulkov.net
11 Jul 2003 6:58 PM
ну что, наконец то хакеры смогут ломать БД без компьютера вообще :-) ... ну а если серьёзно, то давно ожидал от них чего то подобного... интересно будет, как там реализовали распознавание русского..
 

eXOR
12 Jul 2003 5:32 AM
Никак не будет.
 

qwerty
13 Jul 2003 7:12 PM
слишком много идиоматических выражений
 

73137
21 Oct 2003 5:40 PM
Athens это никакой не ПК и даже не компьютер! Компьютер это устройство для обработки информации в зависимости от введенных в него программ! Концепция Athens предусматривает жесткую не только аппаратную, но и программную конфигурацию, превращая его в черный ящик, делающий только то, что запрограммировал разработчик, наподобие PlayStation. Ожидается востребование этого афинского демона широкими массами домашних пользователей (=ламеров), к счастью, нам это пока не грозит, т.к. цена такого исчадия ада не может быть ниже "белого ящика" - компа локальной или домашней сборки. Зато как легче станет все это ломать! Ты знаешь, какая там винда, проц, звуковуха и т.д.!!!
 

Vovchik - aabb.ru
30 Oct 2003 2:26 PM
2qwerty Вот идиомы, по моему не самая трудная проблема, это задача своевременного обновления словаря.
С моей точки зрения упростить распознавание речи, может наличие в одном разговоре одного, известного машине контекста.И пусть переспрашивает почаще, правильно ли поняла.
 

Serj - SemKastyandex.ru
7 Jul 2004 10:51 AM
Интересно только одно:
Каким образом выполнена требуемая защита от механических повреждений системы регистрации информации?
В случае заинтересованности кого поработать в данном направлении, то могу предложить комплексное решение.
Жду предложений.
 

 

← июнь 2003 7  8  9  10  11  14  15  16  17 август 2003 →
Реклама!
 

 

Место для Вашей рекламы!