AI書籤-全球ai人工智慧產品和服務

ElevenLabs Text to Sound Effects：AI生成音效，從文本描述到聲音效果的創新工具

Text to Sound Effects是ElevenLabs開發的最新AI音訊模型，能夠根據文本提示生成各種音效、短音樂曲目、音景和角色聲音。它代表了音訊製作領網域的重大創新，為電影電視工作室、影片遊戲開發者和社交媒體內容創作者提供了快速、經濟、大規模生成豐富沉浸式音景的工具。

RB-Modulation：無需訓練的擴散模型個性化定製

影象生成, 風格遷移

RB-Modulation是谷歌釋出的一種基於隨機最優控制的新型訓練免費個性化擴散模型解決方案。它透過終端成本編碼所需屬性，實作風格和內容的精確提取與控制，無需額外訓練，即可生成與參考影象風格一致且遵循給定文本提示的影象。該技術在無需訓練的情況下，透過新穎的注意力特徵聚合(AFA)模組。

Omost：將大型語言模型的編碼能力轉換為影象生成能力

AI, 影象生成

Omost是一個旨在將大型語言模型(LLM)的編碼能力轉化為影象生成（更準確地說是影象組合）能力的專案。它提供了基於Llama3和Phi3變體的預訓練LLM模型，這些模型能夠編寫程式碼以使用Omost的虛擬Canvas代理來組合影象視覺內容。Canvas可以由特定的影象生成器實作來實際生成影象。

Video-MME：首個全面評估多模態大型語言模型在影片分析中的效能基準

多模態, 影片分析

Video-MME是一個專注於多模態大型語言模型（MLLMs）在影片分析領網域效能評估的基準測試。它填補了現有評估方法中對MLLMs處理連續視覺資料能力的空白，為研究者提供了一個高質量和全面的評估平臺。該基準測試覆蓋了不同長度的影片，並針對MLLMs的核心能力進行了評估。

Fixie.ai：構建自然人類交流的實時人工智慧

自然語言處理

Fixie.ai致力於開發能夠像人類一樣自然交流的人工智慧模型。我們認為，有用的、高效的、易獲取的通用人工智慧（AGI）將需要能夠在快節奏、模糊不清的自然人類交流世界中運作的模型。我們正在解決的問題是構建Ultravox，一個開源的、最先進的語音到語音模型；構建處理WebRTC上LLMs實時通訊的最佳堆疊。