FoleyCrafter:為無聲影片生成逼真且同步的聲音

FoleyCrafter是一個基於文本的影片到音訊生成框架,能夠生成與輸入影片語義相關且時間同步的高質量音訊。該技術在影片製作領網域具有重要意義,特別是在後期製作過程中,可以大大提升效率和音訊質量。它由上海人工智慧實驗室和香港中文大學(深圳)共同研發。

Azure 認知服務語音:讓應用透過語音與文本的轉換實作智慧互動

Azure 認知服務語音是微軟推出的一款語音辨識與合成服務,支援超過100種語言和方言的語音轉文本和文本轉語音功能。它透過建立可處理特定術語、背景噪音和重音的自訂語音模型,提高聽錄的準確度。此外,該服務還支援實時語音轉文本、語音翻譯、文本轉語音等功能,適用於多種商業場景,如字幕生成、通話後聽錄分析、影片翻譯等。

Semantic Kernel:整合大型語言模型的SDK

Semantic Kernel是一個整合了大型語言模型(LLMs)如OpenAI、Azure OpenAI和Hugging Face的軟體開發工具包(SDK),它允許開發者透過定義可串聯的外掛,在幾行程式碼內實作與AI的互動。其特色在於能夠自動編排AI外掛,使使用者能夠透過LLM生成實作特定目標的計劃,並由Semantic Kernel執行該計劃。

llama-agents:非同步優先的多智慧體系統框架

llama-agents 是一個非同步優先的框架,用於構建、迭代和生產化多智慧體系統,包括多智慧體通訊、分散式工具執行、人工在環等。每個智慧體被視為一個服務,不斷處理傳入的任務。智慧體從訊息佇列中拉取和釋出訊息。系統頂部是控制平面,它跟蹤正在進行的任務,網路中的服務,並決定哪個服務應該處理任務的下一步。

LLM Compiler-7b:先進的程式碼最佳化和編譯器推理的大型語言模型

LLM Compiler-7b是Meta開發的一款專注於程式碼最佳化和編譯器推理的大型語言模型。它基於Code Llama模型,透過深度學習最佳化程式碼,支援編譯器中間表示、組合語言和最佳化的理解。此模型在減少程式碼大小和從彙編到編譯器中間表示的反編譯方面展現出卓越的效能,是編譯器研究人員和工程師的有力工具。

RAG Search API:智慧搜尋API,提供高效資訊檢索

RAG Search API是一個由thinkany.ai開發的智慧搜尋API,它利用RAG(Retrieval-Augmented Generation)技術,結合了檢索和生成的特點,為使用者提供高效、準確的資訊檢索服務。該API支援自訂配置,包括搜尋數量、是否進行重排、過濾等,能夠滿足不同使用者的需求。

FiddleCube:快速生成問答資料,評估語言模型

FiddleCube是一個專注於資料科學領網域的產品,它能夠快速地從使用者的資料中生成問答對,幫助使用者評估大型語言模型(LLMs)。它提供了準確的黃金資料集,支援多種問題型別,並能夠透過度量標準來評估資料的準確性。此外,FiddleCube還提供了診斷工具,幫助使用者找出並改進效能不佳的查詢。

MagicPatterns:使用AI快速原型產品介面設計

Magic Patterns是一個由Y Combinator支援的線上平臺,專為創始人、工程師和產品領導者設計,以加速UI的交付過程。它利用AI技術幫助使用者快速迭代產品元件和設計,支援匯出到React或Figma。平臺擁有超過10萬個由社群生成的元件,覆蓋從專案概覽到移動UI的多個領網域。

返回頂端