Link:salmonn
SALMONN是由清華大學電子工程系和位元組跳動開發的大型語言模型(LLM),支援語音、音訊事件和音樂輸入。與僅支援語音或音訊事件輸入的模型不同,SALMONN可以感知和理解各種音訊輸入,從而獲得多語言語音識別和翻譯以及音訊-語音共推理等新興能力。這可以被視為給予LLM“聽覺”和認知聽覺能力,使SALMONN成為通向具有聽覺能力的人工通用智慧的一步。
需求人群:
"SALMONN可以應用於語音識別、語音翻譯、音訊處理等領域。"
使用場景示例:
輸入:gunshots.wav,輸出:…
輸入:duck.wav,輸出:…
輸入:music.wav,輸出:…
產品特色:
多語言語音識別
多語言語音翻譯
音訊-語音共推理