«Поговори со мной, компьютер...»
Поговори со мной, компьютер...
Наконец-то речь становится способом коммуникации между человеком и компьютером - помогая снизить издержки в ведении бизнеса, создавать новые услуги в Интернете, сделать машины более безопасными средствами передвижения...
Информацию в компьютеры на заре вычислительной техники вносили, щелкая переключателями. Потом наступил период относительно более сложных методов загрузки данных — с помощью перфолент и перфокарт. Они, в свою очередь, уступили место клавиатуре, мышке, трекболу, джойстику, сенсорным панелям и экрану. При этом все время как-то забывали о речи — самой естественной и, вероятно, самой эффективной форме коммуникации. Если не принимать в расчет скромные достижения компьютерной индустрии в виде некоторых систем для диктовки текстов компьютерам, в основном люди обращались к ними в словесной форме только для того, чтобы как следует обругать их.
Теперь все меняется. Системы распознавания речи уже нередко можно видеть в колл - центрах телемаркетинговых фирм, в офисах финансовых посредников и авиакомпаний в США. А в Японии и Европе эти технологии внедряют в систему управления автомобилем для распознавания команд водителя.
Такие технологии, как автоматическое распознавание речи (АРР), идентификация личности говорящего, озвучиватели текста, получают все большую популярность. Они обеспечивают доступ к информации в любое время и в любом месте, где есть телефон. Понятно, почему это вызывает такой энтузиазм: во всем мире около одного миллиарда телефонов, а темпы роста числа пользователей телефонной связи сопоставимы с геометрической прогрессией.
Людям не привыкать пользоваться телефоном, их не надо обучать этому делу. К тому же у них есть желание платить за телефонные услуги. Так почему это происходит сейчас, а не, скажем, пять лет назад?
До сегодняшнего дня технологии были дороги и экономически невыгодны. Только в прошлом году компьютеры, способные на серьезную работу, настолько потеряли и в цене, и в весе, что их стали запихивать в мобильные телефоны и PDA (персональный цифровой помощник). Вспыхнул спрос на возможности мгновенного доступа к информации, ведь все большее распространение получали каналы широкополосного доступа в Интернет, особенно в виде беспроводной сети Ethernet в общественных местах (аэропорты, гостиницы, кафе и офисы). Нужно было каким-то образом автоматизировать ответы на запросы. Между тем, хотя компьютеры и стали такими маленькими, что их уже можно было носить в кармане рубашки или крепить на пояс, размеры человеческих рук и пальцев остались прежними. Короче, у систем распознавания речи было резонное право на существование. Без нее людям трудно будет соответствовать тем требованиям, которые предъявляет к ним информационное общество.
Вас не слышно!
В последние годы распознавание речи медленно проникало в офисы. Но жизнь изменилась не благодаря программам для диктовки, этим ближайшим родственникам толстенных словарей, с рафинированными манерами речи. Их техническая структура оставляла желать лучшего, и единственное, что им действительно удавалось — это... дискредитировать системы распознавания речи как таковые. Многие организации, желающие автоматизировать свои колл-центры, вовсе не интересуют такие тонкости, как умение отличать "I scream" от "ice-cream". Если они хотят установить автоматическую систему для обработки запросов о времени прилета или вылета рейсов, то им уже ясно, какие слова потребитель часто будет использовать в своих вопросах. Чем скромнее задачи, возложенные на такие системы, тем выше шансы, что они будут нормально функционировать.
Неудивительно, что в октябре в Нью-Йорке, на выставке SpeechTek 2001 царил всеобщий оптимизм. Хотя в целом этот год отличался вялотекущим ростом в отрасли информационных технологий, эксперты ожидают десятикратного роста рынка для систем распознавания речи в течение ближайших пяти лет. И это небеспочвенные заявления. В одной только Америке 80 000 колл-центров, которые вместе тратят $90 млрд на выполнение клиентских заказов. Если минута работы оператора-человека стоит $1, понятно, что системы распознавания речи дают возможность маркетинговым компаниям снижать издержки. Но интерес телефонных компаний и финансовых посреднических фирм основывается еще и на возможности автоматических систем распознавания речи улучшить качество и обеспечить устойчивость информационных услуг, ликвидируя очереди звонков. По выражению одного участника выставки, эти системы помогут избавить мир от "ада в тоновом режиме", когда многоуровневые телефонные меню с голосовой почтой чаще всего ведут звонящего по заколдованному кругу или загоняют его в тупик.
Один из американских финансовых брокеров, Charles Schwab, еще в 1996 г. внедрил в своей конторе голосовые системы для розничных брокерских услуг. В том же году количество клиентских счетов на фирме выросло на 41%, ее колл-центры обслужили 97 млн звонков. Эта система была установлена калифорнийской фирмой Nuance, ведущим провайдером подобных услуг. В Schwab машина-оператор понимает названия 15 000 ценных бумаг, обслуживает 100 000 звонков в день и с точностью до 93% распознает запросы с первого раза. Клиенты фирмы даже в часы пик получают мгновенный доступ к котировкам и торгам. При этом стоимость обслуживания одного звонка снизилась с $4-5 до $1.
Голос!
Сегодня многие системны АРР используют ограниченную форму распознавания речи - так называемый метод наведенной речи, когда агент-автомат задает вопросы, на которые отвечает звонящий. В следующем году компании Nuance и SpeechWorks International собираются разработать системы для работы на естественных языках. Такие системы будут понимать обычные запросы, сделанные в свободной форме, даже если в них не используются ключевые слова. В прошлом году AT&T, ведущий оператор междугородней и международной телефонной связи в Америке, установил такую систему в своем офисе поддержки клиентов. Она обрабатывает более двух миллионов звонков в месяц. Пока фирма не собирается продавать свое запатентованное изобретение.
А вот IBM поступает по-другому. Этот гигант компьютерной индустрии внедрил в T.Rowe Price, фирме - управляющей фондов, систему обработки запросов о пенсионных счетах на естественном языке. Она понимает запросы, сделанные в тысячах различных форм, включая особенности различных диалектов, структуры предложения и региональные акценты. В общем, время, потраченное клиентом на один звонок, уменьшилось на треть.
Помимо колл-центров, другие фирмы тоже интересуются системами распознавания речи, в частности, их возможностями голосового набора, который позволит просто позвонить на компьютерный коммутатор компании и назвать имя сотрудника, которому предназначен звонок. Затем машина сама находит во внутреннем списке номер этого сотрудника и автоматически набирает его. IBM уже несколько лет использует эту систему для экономии ресурсов компании и нервов 300 000 ее сотрудников. Недавно Bank of New York, в котором работают 16 000 человек, тоже установил подобную систему от компании Phonetics Systems из Массачусетса. На этом не заканчиваются все возможности применения технологии распознавания речи. Разрабатываются приложения сразу для нескольких направлений: банковское самообслуживание, автоматизированные прогнозы погоды и новости рынка ценных бумаг, заказы по каталогу, навигация в Интернете, электронная почта и самое интересное - личный виртуальный помощник (VPA). Имея учетную запись VPA у местного телефонного оператора, родитель, например, может позвонить и "попросить" этого помощника напомнить ему, чтобы он забрал ребенка после тренировки и т. п. Ведь общим для всего перечисленного являются необходимость распознавания речи в какой-нибудь форме да программа - конвертор цифрового текста в речь. Еще одна специальная программа, голосовой браузер, понадобится для прогулок по Сети, а точнее, по сайтам, адаптированным для "прослушивания".
Именно по поводу возможности доступа к сетевым услугам с помощью голоса и вспыхнули недавно "страсти по голосовым порталам". Эта идея заключается в том, чтобы дать пользователям телефонов единый пункт доступа к голосовым услугам в Сети и информации, как это делает, например, Yahool для пользователей Интернета. До сих пор голосовые порталы предоставляли персонифицированный доступ к сетевой информации - о портфелях акций, спортивных и других событиях, о погоде, а также услуги электронной почты. Дэниел Хоукинс из Datamomtor, компании, занимающейся маркетинговыми исследованиями, думает, что голосовые порталы помогут операторам мобильной связи разработать услуги третьего поколения, но не по ценам третьего поколения.
Правда, пока потребители не особо стремятся попасть на эти порталы. Да и в самой отрасли еще не придумали, как эту идею превратить в выгодное предприятие. Многие аналитики полагают, что голосовым порталам суждено оставаться на вторых ролях в рамках внутренних корпоративных сетей. Однако крупные телефонные операторы всегда могут использовать их в разработке "сопутствующих" услуг для пользователей, которые будут расплачиваться за них по тарифам телефонной связи.
Возможно, блестящее будущее уготовано для системы распознавания речи не в сфере телефонных услуг, а в автомобилестроении. В Fiat, Nissan, Toyota, General Motors и Ford набирают темп работы по превращению автомобиле в полноценный портал со своим собственным адресом в Интернете. IBM видит машину как дополнение к офису и готов с удовольствием "окутать" ее Сетью.
Еще до того, как стали запрещать водителям говорить во время движения по мобильному телефону без специальных устройств, производители автомобилей понимали, что возможности "удаленного" голоса подойдут и для управления всякими замороченными устройствами в современном авто. Nissan уже вывел на рынок свою модель представительского класса, в которой можно использовать голосовые инструкции для регулировки аудио, систем кондиционирования, навигации и света, не считая устройств hands-free для мобильного телефона. Реклама этой модели утверждает, что из машины голосом можно управлять и движением на трассе.
Война стандартов
Между тем остается открытым еще один вопрос. Если грандиозная идея слияния двух великих сетей прошлого века - телефонной и Интернета - будет материализована, то необходимо выработать единый стандарт для того, чтобы интернет-сайты могли работать с голосом. До недавнего времени все думали, что это будет стандарт VoiceXML (голосовой вариант XML, extensible markup language). 23 октября WWW Consortium, добровольное объединение фирм отрасли, которое устанавливает международные стандарты для Сети, выпустило бета-версию VoiceXML 2.0. Неделю назад шесть важных участников этого консорциума, включая Microsoft, Philips и Intel, создали новую группу для разработки конкурирующего стандарта - SALT. В общем, скоро мы сможем наблюдать за битвой двух систем голосового доступа в Интернет. Брюс Поллак, консультант по системам распознавания речи в West Corporation, в самом крупном в Северной Америке провайдере автоматизированных услуг по обработке звонков, уверен, что тип стандарта совершенно не волнует пользователей голосовых приложений. Он говорит, что два года назад никто из клиентов фирмы не проявлял интереса к этой технологии. А сегодня почти половина хочет знать, как пользоваться такими системами для экономии. И никто не спрашивает, на каких стандартах они работают. Но тот факт, что начинается борьба между двумя стандартами, - уже хороший знак. "Это толчок для инноваций", - говорит Поллак.
Услышать и понять
Чтобы научить компьютер распознавать речь, нужно взять и оцифровать звук. Затем с помощью математического манипулирования удалить лишний шум и прочие побочные звуки. Далее "очищенный" поток речи делится на фрагменты, каждый из которых должен соответствовать целому слову или части слова. Это делается с помощью статистических алгоритмов, которые основаны на знании того, как говорят на данном языке. Но распознавание слов - это еще не все. Для практического применения технологии необходимо добиться того, чтобы компьютер буквально понимал слова, причем именно в подлинном контексте запроса. Так что ему предстоит кропотливая работа по изучению смысла тысяч предложений. Компьютер дробит типовые предложения (до грамматических составляющих). Ему задают смысл каждой из компонент, так что он в дальнейшем сможет понять смысл отдельных слов или даже их частей. Компании-лидеры в этой области - SpeechWorks International, Nuance, Philips Speech Processing, Lucent Speech Solutions.
С другой стороны, для развития голосовых услуг компьютерам потребуется умение генерировать речевые фрагменты реального звучания. Фирма, торгующая товарами по каталогу, например, захочет поручить компьютеру читку списка товаров для своего "телефонного" бизнеса. Поскольку эти списки достаточно большие и в них часто происходят изменения, то расходы на оплату услуг "человеческих" дикторов могут достигать неприятных для компании величин. Вот где пригодятся "Естественные голоса", разработка AT&T. Она работает таким образом: сначала диктор проговаривает различные варианты диалогов, затем составляют их транскрипции. Созданные текст и звуки заносятся в базу данных. Когда туда поступает запрос с новым текстом, база находит соответствующие фрагменты и составляет из них целостную речь.
Также возможно создать специализированные базы данных, которые значительно повысят точность голосовых ответов на запросы. Речь, создаваемая программой Natural Voices, звучит очень убедительно. Инженеры, участвующие в разработках новых технологий в этой отрасли, говорят, что уже через год они смогут создать систему, конструирующую речь, которая по звуковым характеристикам не будет отличаться от человеческой.
Исследователи из AT&T работают над так называемыми голосовыми шрифтами, т. е. различными оттенками голоса и акцентов. С этим связаны интересные перспективы разработки "голосового брэнда" компании. С помощью тех же технологий можно будет копировать голоса известных людей для использования в корыстных целях. А еще можно будет продавать голосовые "автографы" звезд...
Русский фокус (Москва) 10.12.2001.