Все новости от 29 ноября 2001 г. Cognitive создала для Intel речевую базу данных
В среду, 28 ноября, компании Intel и Cognitive Technologies представили результат инвестиционного проекта по созданию систем распознавания русской речи — речевой корпус русского языка RuSpeech.
Собственно, RuSpeech — это речевая база данных, которая содержит фрагменты непрерывной русской речи с соответствующим текстом, фонетической транскрипцией и дополнительной информацией о дикторах. Cognitive Technologies ставила перед собой цель создать дикторонезависимую систему распознавания непрерывной речи. В настоящее время в состав RuSpeech входит более 50 тыс. предложений с фонетической разметкой каждого произнесенного предложения. Для создания корпуса были приглашены 220 дикторов, каждый из которых наговорил в среднем по 250 предложений. RuSpeech содержит около 50 часов непрерывной речи объемом 15 Гб, которые размещаются более чем на 30 компакт-дисках, что превышает объемы аналогичных речевых баз английского языка WSJ Speech и TIMIT. Речевой интерфейс состоит из системы сценария диалога, синтеза речи по тексту и системы распознавания речевых команд.
Права на речевой корпус RuSpeech принадлежат компании Intel. По словам менеджера по академической программе Intel Камиля Исаева, ценность данного проекта заключается в создании методологии распознавания речи, технологии порождения речевых корпусов.
На следующем этапе проекта Cognitive Technologies собирается заняться телефонной речью и будет работать в направлении приспособления корпуса к различным диалектам русского языка.
По словам технического директора Cognitive Technologies Дмитрия Богданова, по имеющемуся у него прогнозу, объем рынка речевых технологий в России к 2006 году составит порядка 200 млн $, что объясняется большой востребованностью данных технологий.
|