SpeechGPT:多模態語言模型
SpeechGPT是一種多模態語言模型,具有內在的跨模態對話能力。它能夠感知並生成多模態內容,遵循多模態人類指令。SpeechGPT-Gen是一種擴充套件了資訊鏈的語音生成模型。SpeechAgents是一種具有多模態多代理系統的人類溝通模擬。SpeechTokenizer是一種統一的語音標記器,適用於語音語言模型。這些模型和資料集的釋出日期和相關資訊均可在官方網站上找到。
SpeechGPT是一種多模態語言模型,具有內在的跨模態對話能力。它能夠感知並生成多模態內容,遵循多模態人類指令。SpeechGPT-Gen是一種擴充套件了資訊鏈的語音生成模型。SpeechAgents是一種具有多模態多代理系統的人類溝通模擬。SpeechTokenizer是一種統一的語音標記器,適用於語音語言模型。這些模型和資料集的釋出日期和相關資訊均可在官方網站上找到。
Web LLM 是一個模組化、可定製的 JavaScript 包,可直接將語言模型聊天引入到 Web 瀏覽器中。一切都在瀏覽器內部執行,無需伺服器支援,並且透過 WebGPU 進行加速。它可以為大家構建 AI 助手提供很多有趣的機會,並在享受 GPU 加速時保護隱私。此專案是 MLC LLM 的附屬專案,MLC LLM 可以在 iPhone 和其他本地環境中本地執行 LLM。
Imp專案旨在提供一系列強大的多模態小語言模型(MSLMs)。我們的imp-v1-3b是一個擁有30億引數的強大MSLM,它建立在一個小而強大的SLM Phi-2(27億)和一個強大的視覺編碼器SigLIP(4億)之上,並在LLaVA-v1.5訓練集上進行了訓練。Imp-v1-3b在各種多模態基準測試中明顯優於類似模型規模的對手,甚至在各種多模態基準測試中表現略優於強大的LLaVA-7B模型。
Qwen-VL 是阿里雲推出的通用型視覺語言模型,具有強大的視覺理解和多模態推理能力。它支援零樣本影象描述、視覺問答、文字理解、影象地標定位等任務,在多個視覺基準測試中達到或超過當前最優水平。該模型採用 Transformer 結構,以 7B 引數規模進行預訓練,支援 448×448 解析度,可以端到端處理影象與文字的多模態輸入與輸出。Qwen-VL 的優勢包括通用性強、支援多語種、細粒度理解等。它可以廣泛應用於影象理解、視覺問答、影象標註、圖文生成等任務。
百川智慧Baichuan 3是一款超千億引數的大語言模型,在多個權威通用能力評測中展現出色,特別在中文任務上超越了GPT-4。它在自然語言處理、程式碼生成、醫療任務等領域表現優異,採用了多項創新技術手段提升模型能力,包括動態資料選擇、重要度保持和非同步CheckPoint儲存等。訓練過程中採用因果取樣的動態訓練資料選擇方案,保證資料質量;引入了重要度保持的漸進式初始化方法,最佳化模型訓練穩定性;並針對並行訓練問題進行了一系列最佳化,效能提升超過30%。
LLMs-from-scratch將帶您逐步瞭解LLMs的工作原理。本書將逐步指導您建立自己的LLM,透過清晰的文字、圖表和示例解釋每個階段。所描述的用於教育目的的訓練和開發自己的小型但功能齊全模型的方法,與建立ChatGPT等大規模基礎模型的方法相似。
H2O-Danube-1.8B是一個基於1T標記訓練的1.8B語言模型,遵循LLama 2和Mistral的核心原則。儘管我們的模型在訓練時使用的總標記數量明顯少於類似規模的參考模型,但在多個基準測試中表現出極具競爭力的指標。此外,我們還發布了一個經過監督微調和直接偏好最佳化訓練的聊天模型。我們將H2O-Danube-1.8B以Apache 2.0許可證開放原始碼,進一步將大型語言模型民主化,讓更廣泛的受眾經濟地受益。
OLMo是一個開源的語言模型和訓練框架,由AI2研究院釋出。它提供了完整的訓練資料、程式碼、模型引數、評估程式碼等資源,使研究人員能夠訓練並實驗大規模語言模型。OLMo的優勢在於真正開放,使用者可以訪問從資料到模型的完整資訊,輔以豐富的檔案,便於研究人員進行開放式研究和協作。該框架降低了語言模型研究的門檻,使更多人參與進來推動語言模型技術進步。
Gemma是Google推出的一系列開源的輕量級語言模型系列。它結合了全面的安全措施,在尺寸上實現了優異的效能,甚至超過了一些較大的開放模型。可以無縫相容各種框架。提供快速入門指南、基準測試、模型獲取等,幫助開發者負責任地開發AI應用。
LongRoPE是微軟推出的技術,可以將預訓練大型語言模型(LLM)的上下文視窗擴充套件到2048k(200萬)令牌,實現從短上下文到長上下文的擴充套件,降低訓練成本和時間,同時保持原有短上下文視窗效能。適用於提高語言模型在長文字上的理解和生成能力,提升機器閱讀理解、文字摘要和長篇文章生成等任務。