用於多語言語音 AI 訓練的語音資料集收集

挑戰:

客戶需要多語種的會話語音資料,這些資料具有跨南亞、拉丁美洲和歐洲語言的自然編碼轉換功能。由於缺乏真實的混合語言資料集與多樣性,導致 AI 模型準確度低,且語音辨識結果有偏差。.

產業:

人工智慧 / 資料註解 / 語音技術

解決方案:

SummitNext 設計了一個全球蒐集架構,招募真正會轉換代碼的講者,促進自然的傳送,並針對大規模的多語言語音擷取,執行快速的 QA 驗證工作流程。.

結果:

以 95% 的驗收合格率和近乎零的返工率,交付了超過 520+ 小時的驗證多語言會話資料,使客戶將合約擴展至另外五個東南亞市場。.

關於客戶

客戶是一家全球性的語音 AI 公司,專注於為全球多語言使用者改善語音識別模型。.

他們的目標是建立多樣化、真實的資料集,以準確表現人們在日常說話中自然混合語言的方式 - 特別是在亞洲、歐洲和拉丁美洲。.

案例總覽

SummitNext 與客戶合作,提供端對端的多語言語音資料集收集專案。該專案的重點是在嚴格的人口統計和技術指導原則下,擷取自然、未經編寫、編碼切換的對話。該解決方案包括招募真實世界中的雙語和多語言演講者、訓練參與者自然傳達,以及嵌入即時品質驗證以保持資料集的完整性。這項計畫彌補了多語言語音 AI 訓練的重要缺口,並改善未來語音辨識系統的包容性與準確性。.

挑戰

跨區域的真實語音資料有限

在年齡、口音和方言代表性方面缺乏多樣性。.

參與者過度練習或壓抑自然口音的傾向。.

傳統資料收集工作流程的驗證週期緩慢。.

解決方案:

SummitNext 實施三階段執行模式,強調真實性、多樣性和速度:

想要探索我們客戶的完整故事嗎?

我們是誰

SummitNext Technologies 創立於 2020 年,是一家 BPO 公司,其願景是透過技術、人員專業知識和創新來改變客戶支援、客戶獲取、資料註釋和後端支援領域。我們的總部設在馬來西亞,並在菲律賓、印度和烏茲別克斯坦設有辦事處。印度和烏茲別克斯坦。我們提供

在超過 28 個以上的國家與遠端團隊合作。.

馬來西亞

印度

美國

菲律賓

烏茲別克斯坦

提供卓越的客戶支援
zh_TW繁體中文