語音辨識 Archives - AI書籤-全球ai人工智慧產品和服務

Azure 認知服務語音：讓應用透過語音與文本的轉換實作智慧互動

Azure 認知服務語音是微軟推出的一款語音辨識與合成服務，支援超過100種語言和方言的語音轉文本和文本轉語音功能。它透過建立可處理特定術語、背景噪音和重音的自訂語音模型，提高聽錄的準確度。此外，該服務還支援實時語音轉文本、語音翻譯、文本轉語音等功能，適用於多種商業場景，如字幕生成、通話後聽錄分析、影片翻譯等。

sherpa-onnx：支援多種語音辨識和語音合成功能的開源專案

語音合成, 語音辨識

sherpa-onnx 是一個基於下一代 Kaldi 的語音辨識和語音合成專案，使用onnxruntime進行推理，支援多種語音相關功能，包括語音轉文字(ASR)、文字轉語音(TTS)、說話人辨識、說話人驗證、語言辨識、關鍵詞偵測等。它支援多種平臺和作業系統，包括嵌入式系統、Android、iOS、Raspberry Pi、RISC-V、伺服器等。

LookOnceToHear：實時語音提取智慧耳機互動系統

實時處理, 語音辨識

LookOnceToHear 是一種創新的智慧耳機互動系統，允許使用者透過簡單的視覺辨識來選擇想要聽到的目標說話者。這項技術在 CHI 2024 上獲得了最佳論文榮譽提名。它透過合成音訊混合、頭相關傳輸函式(HRTFs)和雙耳房間脈衝響應(BRIRs)來實作實時語音提取，為使用者提供了一種新穎的互動方式。