На главную страницу AlgoNet В сотрудничестве с ZDNet
АРХИВ СТАТЕЙ 2004-3-26 на главную / новости от 2004-3-26
AlgoNet.ru
поиск

 

Место для Вашей рекламы!

 

Все новости от 26 марта 2004 г.

Вгрызаясь в горы словесной руды

Катарский телеканал «Аль-Джазира» выпускает веб-видеоклип с новостями дня на арабском языке. Спустя считанные мгновения появляется его перевод на английский.

Эта демонстрация на конференции PC Forum, которая прошла на этой неделе в Скотсдейле (штат Аризона), напомнила о том, как близки границы возможного в отношении онлайновой информации. Коммерческие поисковые службы типа Yahoo и Google революционизировали нашу способность находить за короткое время множество фактов на самые разные темы. Теперь молодые компании и почтенные фирмы предлагают продукты, которые, как они утверждают, расширяют возможности по работе с информацией, найденной в вебе или в базах данных.

Например, отпрыск Университета штата Южная Каролина Language Weaver выступил с технологией, которая «на лету» выполняет функциональный перевод интернет-статей или видеоклипов. Как это было продемонстрировано на примере клипа «Аль-Джазира», можно опубликовать в вебе страницу на французском, арабском, китайском, хинди или неизменно популярном языке сомали, и уже через минуту появится его функциональная английская версия.

«Через пару лет мы достигнем того уровня, когда не будет заметно разницы между неотредактированным машинным переводом и черновым вариантом перевода, выполненного человеком», — сказал в своем выступлении на PC Forum директор Language Weaver Брюс Бенджамин.

Тем временем компания MetaCarta предложила ПО, позволяющее разведывательным службам, геологическим партиям или руководителям маркетинговых служб разыскивать документы в своих собственных архивах, а затем отражать содержащиеся в них данные на географических картах.

Скажем, автопроизводителю нужно решить, где лучше организовать премьеру своего нового внедорожника. MetaCarta выберет документы, относящиеся к покупателям предыдущей модели, и наложит эти данные на карту Соединенных Штатов, так что производитель легко определит, выпускать ему новую машину в Миннесоте или в Техасе. MetaCarta утверждает, что поиск в файлах американской разведки документов, связанных с Мохаммедом Атта, позволил выявить места пребывания террориста-самоубийцы, который значится под номером 19, в Германии перед событиями 11 сентября.

Это не простой поиск, говорит президент MetaCarta Джон Фрэнк. Существует 44 крупных и мелких города с названием Париж и 69 городов с названием Аль-Хамра. Еще больше усложняет поиск тот факт, что у большинства мест на земном шаре не одно название. Отфильтровать неподходящие результаты — чрезвычайно трудная задача.

Еще хуже то, что во многих документах местность описывается не слишком определенно. В тексте может быть сказано: «карьеры в 22 милях от Юма» или «Индийская плита». Чтобы добиться правильных результатов, ПО MetaCarta по существу переводит эти выражения в географические координаты. «Многих из этих мест вообще нет на карте», — говорит Фрэнк. Эти трудности объясняют и то, почему ПО компании продается за шестизначные суммы.

По сути MetaCarta и Language Weaver пытаются разрешить главный парадокс поиска: чем больше вы узнаете, тем меньше знаете. Объем накопленной информации и способы ее возможного применения меняются в столь широких пределах, что вариантов технологии может быть масса. «Их гораздо больше, чем я мог вообразить, — говорит CEO Google Эрик Шмидт. — Здесь не может быть стратегии единственной платформы, которая была бы лучше всех остальных».

Google планирует объединить свою социальную сеть Orkut с основной поисковой службой, чтобы ответы на те вопросы, которые трудно получить от стандартного механизма поиска, давали эксперты. Тем временем Intel и другие поощряют исследовательские проекты, которые позволят искать не по ключевым словам, а по изображениям или аудиоклипам.

Как испытанные технологии, так и технологии Language Weaver и MetaCarta при формировании результатов поиска опираются на вероятность. При переводе с испанского на английский Language Weaver, сравнивая варианты порядка слов в испанских и английских документах из своей базы данных, сначала подбирает для испанских выражений (Que hambre tengo!) вероятный эквивалент на ломаном английском (Have I that hunger!). Затем производится другой вероятностный анализ для перевода этой фразы на стандартный язык (I am so hungry!).

База данных документов Language Weaver для вероятностного перевода с европейских или китайского языка очень обширна. Для сомалийского источников значительно меньше — компании приходится ограничиваться Библией. Точно так же отбрасывает нерелевантные результаты ПО географического поиска MetaCarta. Например, если поиск относится к течению реки Темза, то система исключает результаты, где слово «Лондон» следует за словом «Бройл» или предшествует слову «Джулия».

Пока подобную технологию использует главным образом правительство США. На самом деле и Language Weaver, и MetaCarta получили венчурное финансирование из учрежденного ЦРУ фонда In-Q-Tel. Но потенциал коммерческого применения их ПО тоже огромен, и обе компании уже начали поставлять свои продукты негосударственным заказчикам. Бенджамин из Language Weaver утверждает, что, хотя главным образом по-английски говорит всего 8% населения Земли, доля англоязычных веб-сайтов близка к 80%. Сейчас технология компании дороговата — франко-английский переводчик стоит около 25 тыс. долл. — но по мере расширения базы данных цена будет снижаться.

«Мы не собираемся и не пытаемся достичь уровня людей — носителей языка и культуры», — говорит Бенджамин. 

 Предыдущие публикации:
2004-02-18   Трудности перевода
2004-03-26   Баллмер: Мы прозевали поиск
 В продолжение темы:
2004-04-08   Google влип в антисемитскую историю
2004-11-25   Спецслужбы намерены установить слежку за чат-румами
2005-08-23   Google лидирует в тестах машинного перевода

 

← февраль 2004 19  22  23  24  25  26  29  30  31 апрель 2004 →
Реклама!
 

 

Место для Вашей рекламы!