← all posts··7 min

Почему перевод речи в реальном времени во время телефонного разговора так сложен

Если вы когда-либо пользовались приложением для перевода, которое заставляет вас нажимать кнопку, ждать, а затем нажимать другую, вы знаете, насколько велика разница между *переводом* и *переводом в реальном времени*. Первое — это инструмент. Второе — это разговор. Преодолеть этот разрыв во время обычного телефонного разговора сложнее, чем кажется, потому что телефонная сеть никогда не была для этого предназначена.

В этом посте мы расскажем пользователям, почему это сложно — без подробного описания конкретных решений по реализации.

Что на самом деле означает «в реальном времени»

В реальном времени разговор происходит в темпе, соответствующем темпу человеческого разговора. На практике это примерно полсекунды задержки между моментом, когда один человек перестает говорить, и моментом, когда другой начинает слышать перевод. Если задержка больше, разговор начинает напоминать рацию. Задержка менее 500 мс — редкость, даже для людей.

Для достижения этой цели необходима быстрая цепочка операций:

1. Система должна знать, когда заканчивается предложение. Это звучит тривиально, но это не так. Телефоны передают дыхание, шум помещения и посторонние звуки, которые для неопытного детектора выглядят как речь.

2. Система должна понимать, что было сказано. Распознавание речи значительно улучшилось за последние десять лет, но акценты, региональные диалекты и плохие условия связи по-прежнему сбивают модели с толку.

3. Система должна точно переводить. Пословный перевод часто дает бессмысленные результаты в разных языках с разным порядком слов. Перевод на уровне предложений точнее, но медленнее.

4. Система должна озвучить результат голосом, который не будет звучать как робот, читающий новости.

Каждый из этих четырех этапов влияет на задержку. У системы есть примерно полсекунды, чтобы выполнить все четыре этапа от начала до конца.

Почему телефонный звонок сложнее, чем видеозвонок

Приложения, обрабатывающие видеозвонки между двумя браузерами, обладают рядом инструментов, которых нет в телефонном звонке:

  • Более высокое качество звука. Звук в браузере воспроизводится на уровне студийного качества. Телефонные звонки воспроизводятся с более низким качеством звука, для которого сеть была разработана в 1980-х годах — более узкий частотный диапазон, больше артефактов сжатия. Распознавание речи имеет больше возможностей для обработки звука в браузере, чем в телефоне.
  • Обработка на стороне клиента. Браузерные приложения могут предварительно обрабатывать звук на устройстве пользователя — подавление эха, шумоподавление, определение границ предложений. Телефоны ничего этого не предоставляют тому, кто принимает звонок.
  • Контролируемый сетевой путь. Браузеры определяют маршрут между двумя конечными точками. Телефонные звонки проходят по тому пути, который выбирает сеть.
  • Второй экран для резервного варианта. Видеозвонки могут отображать субтитры, выбор языка, кнопки отключения звука. Телефонные звонки содержат только звук.

Главное ограничение телефонной сети — её главное преимущество: получателю не нужно приложение. Именно поэтому перевод телефонных звонков полезен для связи с бабушками и дедушками, поставщиками, сотрудниками горячей линии и всеми, кто не собирается ничего устанавливать. Техническая сложность, скрывающаяся за фразой «отвечайте на звонок как обычно», — это и есть её преимущество.

Где скрывается задержка

Время, необходимое для корректного перевода звонка в реальном времени, составляет примерно столько:

  • Определение конца предложения: ~500 мс (настроено специально — слишком короткое прерывает звонок, слишком длинное вызывает задержку)
  • Распознавание сказанного: ~100 мс после окончания предложения
  • Перевод на целевой язык: ~100 мс
  • Синтез переведённого голоса: ~150 мс
  • Накладные расходы сети и оркестрации: ~100 мс

Итого: в среднем около 600 мс, иногда до 1 секунды при шумных звонках. Вот почему перевод звонков в реальном времени ощущается как слегка запаздывающий звонок по спутниковой связи.

Как ощущается качественный перевод

Несколько признаков работы системы:

  • Обе стороны говорят естественно. Не требуется никаких инструкций типа «говорите медленнее». Нет пауз между каждым словом.
  • Каждый говорящий сохраняет свой собственный голос. Перевод, звучащий как робот, читающий субтитры, ощущается как звонок на иностранном языке. Перевод, соответствующий тону говорящего, ощущается как настоящий разговор.
  • Вы можете прервать разговор. В реальных разговорах есть наложение звуков. Система обрабатывает это без потери звука.
  • Переключение кодов работает. Люди, говорящие на двух языках, часто смешивают их. Система следует за ними.

Где перевод дает сбои

Перевод с помощью ИИ в реальном времени — это не магия. Некоторые вещи все еще ухудшают качество:

  • Сильные региональные диалекты. Стандартная речь основных языков переводится хорошо. Сильные местные диалекты по-прежнему создают системе проблемы.
  • Несколько говорящих одновременно. Предполагается, что одновременно говорит только один голос. Шум в помещении сводит это на нет.
  • Шепот или крик. Модели распознавания настроены на нормальную громкость. Выбросы громкости снижают точность.
  • Высокотехнический жаргон. Для обычного звонка все работает нормально. Для звонка, касающегося кардиоторакальных хирургических процедур или аэрокосмической техники, может потребоваться переводчик-специалист в данной области.

Правильная формулировка: перевод с помощью ИИ в реальном времени блестяще справляется с широким спектром разговоров. Для двух крайних случаев — звонков только для непринужденной беседы и звонков по важным вопросам — иногда требуется помощь человека.

Подробнее

Почему перевод речи в реальном времени во время телефонного разговора так сложен · Owaa