Волошина Екатерина
Редактор раздела "Здоровье"

Как часть новые усилия в направлении доступности, Google объявил Проект Евфония на I / O в мае: попытка сделать распознавание речи способным понимать людей с нестандартными речевыми голосами или препятствиями. Компания имеет только опубликовал пост и его документ, объясняющий некоторые из работ ИИ, позволяющих использовать новые возможности.

Проблема проста для наблюдения: говорящие голоса людей с двигательными нарушениями, такими как те, которые вызваны дегенеративными заболеваниями, такими как боковой амиотрофический склероз (ALS), просто не поняты существующими системами обработки естественного языка.


Вы можете увидеть это в действии на следующем видео научного сотрудника Google Дмитрия Каневского, который сам нарушил свою речь, пытаясь взаимодействовать с одним из собственных продуктов компании (и в конечном итоге делал это с помощью сопутствующая работа Parrotron):

Исследовательская группа описывает это следующим образом:

Системы автоматического распознавания речи (ASR) чаще всего обучаются на «типичной» речи, что означает, что недопредставленные группы, такие как группы с нарушениями речи или с сильными акцентами, не имеют такой же степени полезности.

… Современные современные модели ASR могут обеспечить высокую частоту ошибок в словах (WER) для говорящих с незначительным ухудшением речи от ALS, что фактически ограничивает доступ к технологиям, зависящим от ASR.

Примечательно, что они хотя бы частично обвиняют тренировочный комплекс. Это одно из тех явных отклонений, которые мы обнаруживаем в моделях ИИ, которые могут привести к высокой частоте появления ошибок в других местах, таких как распознавание лиц или даже замечание присутствия человека. Хотя неспособность включить основные группы, такие как люди с темной кожей, не является ошибкой, сравнимой по масштабам с построением системы, не включающей в себя людей с нарушенной речью, они могут быть рассмотрены с помощью более инклюзивных исходных данных.

Для исследователей Google это означало собирать десятки часов разговорного звука от людей с БАС. Как и следовало ожидать, на каждого человека влияет его состояние по-разному, поэтому адаптация последствий заболевания – это не то же самое, что адаптация, скажем, просто необычного акцента.

В качестве основы была использована стандартная модель распознавания голоса, а затем несколько экспериментальных настроек, обучающих ее новому аудио. Одно это резко уменьшило частоту появления ошибок в словах и сделало это с относительно небольшими изменениями по сравнению с исходной моделью, что означает меньшую потребность в сложных вычислениях при настройке на новый голос.

Исследователи обнаружили, что модель, когда она все еще запутана определенной фонемой (это отдельный речевой звук, такой как e или f), имеет два вида ошибок. Во-первых, есть тот факт, что он не распознает фонему для того, что было предназначено, и, следовательно, не распознает слово. А во-вторых, модель должна угадать, по какой фонеме динамик сделал намерены и могут выбрать неправильное в тех случаях, когда два или более слов звучат примерно одинаково.

В частности, вторая ошибка – это та, которая может быть обработана разумно. Возможно, вы говорите: «Я возвращаюсь в дом», и система не может распознать «b» сзади и «h» в доме; маловероятно, что вы намеревались сказать: «Я пойду в мышку». Система ИИ может использовать то, что знает о человеческом языке – и о вашем собственном голосе, или о конкурсе, в котором вы говорите – заполнить пробелы разумно.

Но это оставлено для будущих исследований. Пока вы можете прочитать работу команды до сих пор в статье «Персонализация ASR для дисартричной и ударной речи с ограниченными данными» должен быть представлен на Interspeech конференция в Австрии в следующем месяце.

 



Актуальные новости

  • Сутки
  • Неделя
  • Месяц