Azure 認知服務語音:讓應用透過語音與文本的轉換實作智慧互動
Azure 認知服務語音是微軟推出的一款語音辨識與合成服務,支援超過100種語言和方言的語音轉文本和文本轉語音功能。它透過建立可處理特定術語、背景噪音和重音的自訂語音模型,提高聽錄的準確度。此外,該服務還支援實時語音轉文本、語音翻譯、文本轉語音等功能,適用於多種商業場景,如字幕生成、通話後聽錄分析、影片翻譯等。
Azure 認知服務語音是微軟推出的一款語音辨識與合成服務,支援超過100種語言和方言的語音轉文本和文本轉語音功能。它透過建立可處理特定術語、背景噪音和重音的自訂語音模型,提高聽錄的準確度。此外,該服務還支援實時語音轉文本、語音翻譯、文本轉語音等功能,適用於多種商業場景,如字幕生成、通話後聽錄分析、影片翻譯等。
sherpa-onnx 是一個基於下一代 Kaldi 的語音辨識和語音合成專案,使用onnxruntime進行推理,支援多種語音相關功能,包括語音轉文字(ASR)、文字轉語音(TTS)、說話人辨識、說話人驗證、語言辨識、關鍵詞偵測等。它支援多種平臺和作業系統,包括嵌入式系統、Android、iOS、Raspberry Pi、RISC-V、伺服器等。
LookOnceToHear 是一種創新的智慧耳機互動系統,允許使用者透過簡單的視覺辨識來選擇想要聽到的目標說話者。這項技術在 CHI 2024 上獲得了最佳論文榮譽提名。它透過合成音訊混合、頭相關傳輸函式(HRTFs)和雙耳房間脈衝響應(BRIRs)來實作實時語音提取,為使用者提供了一種新穎的互動方式。