AI書籤-全球ai人工智慧產品和服務

Real-time Voice AI Agent：實時語音AI代理，500毫秒內響應語音查詢

Real-time Voice AI Agent是一個高度靈活的實時語音互動模型，它能夠在大約500毫秒內透過語音回答任何查詢。該模型支援使用者選擇任何大型語言模型、文本到語音(TTS)模型和語音到文本(STT)模型。它非常適合用於客戶服務機器人、接待員等涉及語音的應用場景。

langgaph-course：LangGraph的高階應用課程

LangGraph, 高階應用

這是一個專注於LangGraph的高階應用課程，提供Reflective RAG, Self-RAG和Adaptive RAG的實作，旨在幫助開發者和生產環境應用LangGraph。

Drip Table：京東零售推出的輕量、強大的企業級列表視覺化搭建解決方案

React, 視覺化搭建

Drip Table 是京東零售推出的一款專為 React 16+ 環境設計的輕量級、功能強大的企業級列表視覺化搭建解決方案。它透過視覺化搭建方式，大幅降低研發週期，提高開發效率，支援多種主流介面元件庫，不依賴指定介面框架。Drip Table 採用低程式碼拖拽搭建模式，簡化了傳統的 JSX 堆砌表格列的開發過程，使得前端列表開發更加高效和靈活。

FoleyCrafter：為無聲影片生成逼真且同步的聲音

人工智慧, 影片音訊合成

FoleyCrafter是一個基於文本的影片到音訊生成框架，能夠生成與輸入影片語義相關且時間同步的高質量音訊。該技術在影片製作領網域具有重要意義，特別是在後期製作過程中，可以大大提升效率和音訊質量。它由上海人工智慧實驗室和香港中文大學（深圳）共同研發。

Azure 認知服務語音：讓應用透過語音與文本的轉換實作智慧互動

語音合成, 語音辨識

Azure 認知服務語音是微軟推出的一款語音辨識與合成服務，支援超過100種語言和方言的語音轉文本和文本轉語音功能。它透過建立可處理特定術語、背景噪音和重音的自訂語音模型，提高聽錄的準確度。此外，該服務還支援實時語音轉文本、語音翻譯、文本轉語音等功能，適用於多種商業場景，如字幕生成、通話後聽錄分析、影片翻譯等。

Semantic Kernel：整合大型語言模型的SDK

SDK

Semantic Kernel是一個整合了大型語言模型（LLMs）如OpenAI、Azure OpenAI和Hugging Face的軟體開發工具包（SDK），它允許開發者透過定義可串聯的外掛，在幾行程式碼內實作與AI的互動。其特色在於能夠自動編排AI外掛，使使用者能夠透過LLM生成實作特定目標的計劃，並由Semantic Kernel執行該計劃。

llama-agents：非同步優先的多智慧體系統框架

多智慧體, 非同步

llama-agents 是一個非同步優先的框架，用於構建、迭代和生產化多智慧體系統，包括多智慧體通訊、分散式工具執行、人工在環等。每個智慧體被視為一個服務，不斷處理傳入的任務。智慧體從訊息佇列中拉取和釋出訊息。系統頂部是控制平面，它跟蹤正在進行的任務，網路中的服務，並決定哪個服務應該處理任務的下一步。

LLM Compiler-7b-ftd：先進的編譯器最佳化大型語言模型

深度學習, 編譯器最佳化

LLM Compiler-7b-ftd是由Meta開發的大型語言模型，它基於Code Llama，針對程式碼最佳化和編譯器推理進行了改進。它在預測LLVM最佳化效果方面表現卓越，能夠完美模擬編譯器輸出，是編譯器最佳化任務的理想工具。

LLM Compiler-7b：先進的程式碼最佳化和編譯器推理的大型語言模型

程式碼最佳化, 編譯器推理

LLM Compiler-7b是Meta開發的一款專注於程式碼最佳化和編譯器推理的大型語言模型。它基於Code Llama模型，透過深度學習最佳化程式碼，支援編譯器中間表示、組合語言和最佳化的理解。此模型在減少程式碼大小和從彙編到編譯器中間表示的反編譯方面展現出卓越的效能，是編譯器研究人員和工程師的有力工具。

RAG Search API：智慧搜尋API，提供高效資訊檢索

RAG技術, 搜尋API

RAG Search API是一個由thinkany.ai開發的智慧搜尋API，它利用RAG（Retrieval-Augmented Generation）技術，結合了檢索和生成的特點，為使用者提供高效、準確的資訊檢索服務。該API支援自訂配置，包括搜尋數量、是否進行重排、過濾等，能夠滿足不同使用者的需求。