Коллекция речевых данных для обучения многоязычному голосовому искусственному интеллекту

Задачи:

Клиенту требовались данные о многоязычной разговорной речи с естественным переключением кодов между южноазиатскими, латиноамериканскими и европейскими языками. Отсутствие аутентичных разноязычных наборов данных и разнообразия приводило к низкой точности моделей ИИ и необъективным результатам распознавания речи.

Промышленность:

Искусственный интеллект / Аннотирование данных / Речевые технологии

Решения:

Компания SummitNext разработала глобальную систему сбора данных, которая позволяет привлекать реальных дикторов, переключающих коды, обеспечивать естественную передачу информации и внедрять быстрые рабочие процессы проверки качества для крупномасштабного многоязычного аудиозахвата.

Результаты:

Поставлено более 520 часов многоязычных разговорных данных с коэффициентом приемки 95% и практически полным отсутствием переделок, что позволило клиенту продлить контракт на пять дополнительных рынков Юго-Восточной Азии.

О клиенте

Клиент - международная компания, специализирующаяся на речевом искусстве, которая занимается совершенствованием моделей распознавания речи для многоязычных пользователей по всему миру.

Их целью было создание разнообразных, реалистичных наборов данных, которые бы точно отражали естественное смешение языков в повседневной речи людей - особенно в Азии, Европе и Латинской Америке.

Обзор кейса

SummitNext сотрудничал с клиентом для реализации комплексного проекта по сбору многоязычных речевых данных. Задача заключалась в сборе естественной, незаписанной речи с кодовыми заменами в строгом соответствии с демографическими и техническими требованиями. Решение включало в себя набор реальных двуязычных и многоязычных дикторов, обучение участников естественной речи и проверку качества в режиме реального времени для поддержания целостности набора данных. Эта инициатива позволила устранить критические пробелы в обучении многоязычного голосового ИИ и повысить инклюзивность и точность будущих систем распознавания речи.

Вызовы

Ограниченная доступность аутентичных речевых данных с кодовой коммутацией в различных регионах

Отсутствие разнообразия в представлении возрастов, акцентов и диалектов.

Склонность участников к чрезмерному повторению или подавлению естественных акцентов.

Медленные циклы проверки в традиционных процессах сбора данных.

Решение:

SummitNext реализовал трехфазную модель исполнения, в которой особое внимание уделяется аутентичности, разнообразию и скорости:

База фрилансеров для переключения кодов в реальном мире - Набирали активных переключителей кодов (городская молодежь, агенты по работе с клиентами, влиятельные люди, гиг-работники) через мероприятия в кампусе, цифровые платформы и сети местных сообществ. Проверяли участников на свободное владение языком и сбалансированность акцента.
Обучение естественной речи - Проводились вводные занятия и живые вопросы и ответы для поощрения аутентичной, неформальной речи. Обмен справочными руководствами по интонациям, сленгу и акцентам позволил снизить уровень тревожности участников и обеспечить реалистичность записей.
Быстрое обеспечение качества и обратной связи - встроенная проверка аудио в режиме реального времени с помощью искусственного интеллекта для мгновенного обнаружения ошибок. Внедрение прозрачных систем оценки, приборных панелей для участников и быстрой обратной связи для повышения качества данных и скорости обработки.

Хотите узнать полную историю нашего клиента?

КТО МЫ

SummitNext Technologies, основанная в 2020 году, - это BPO-компания, цель которой - преобразовать сферы поддержки клиентов, привлечения клиентов, аннотирования данных и бэкенд-поддержки с помощью технологий, человеческого опыта и инноваций. Наш головной офис находится в Малайзии, а офисы - на Филиппинах. Индии и Узбекистане. Мы оказываем поддержку

сотрудничает с удаленными командами в более чем 28 странах.

Малайзия

Индия

Соединенные Штаты

Филиппины

Узбекистан

Обеспечьте исключительную поддержку клиентов