Qwen1.5-110B:Qwen1.5系列首個千億引數開源模型,多語言支援,高效Transformer解碼器架構
Qwen1.5-110B是Qwen1.5系列中規模最大的模型,擁有1100億引數,支援多語言,採用高效的Transformer解碼器架構,幷包含分組查詢注意力(GQA),在模型推理時更加高效。它在基礎能力評估中與Meta-Llama3-70B相媲美,在Chat評估中表現出色,包括MT-Bench和AlpacaEval 2.0。
Qwen1.5-110B是Qwen1.5系列中規模最大的模型,擁有1100億引數,支援多語言,採用高效的Transformer解碼器架構,幷包含分組查詢注意力(GQA),在模型推理時更加高效。它在基礎能力評估中與Meta-Llama3-70B相媲美,在Chat評估中表現出色,包括MT-Bench和AlpacaEval 2.0。
Textbase 是一個使用自然語言處理和機器學習構建聊天機器人的簡單框架。它提供了一個 on_message 函式的介面,使用者只需實現這個函式,Textbase 會處理其他的事情。使用者可以使用任何模型、庫、向量資料庫和 API。未來還會推出 PyPI 包、透過 textbase deploy 進行簡單的 Web 部署、SMS 整合以及其他模型的原生整合。
QualityPrompts是一個Python外掛,實作了58種不同的提示技術,這些技術來源於OpenAI、Microsoft等機構的調研。它透過提供少量示例來幫助使用者快速構建和評估他們的提示。該外掛的主要優點是能夠顯著提高解決數學問題等任務的準確性,並且易於使用和整合。
MInference 1.0 是一種稀疏計算方法,旨在加速長序列處理的預填充階段。它透過辨識長上下文注意力矩陣中的三種獨特模式,實作了對長上下文大型語言模型(LLMs)的動態稀疏注意力方法,加速了1M token提示的預填充階段,同時保持了LLMs的能力,尤其是檢索能力。
《Understanding Deep Learning》是一本深入探討深度學習原理和應用的書籍。它提供了豐富的數學背景知識、監督學習、神經網路的構建與訓練等深度學習領網域的全面內容。書中提供的Python筆記本練習幫助讀者透過實踐來加深理解。此外,還有為教師提供的資源,包括影象、投影片和教輔材料。
MG-LLaVA是一個增強模型視覺處理能力的機器學習語言模型(MLLM),透過整合多粒度視覺流程,包括低解析度、高解析度和以對象為中心的特徵。提出了一個額外的高解析度視覺編碼器來捕捉細節,並透過Conv-Gate融合網路與基礎視覺特徵融合。
ComfyUI-LuminaWrapper是一個開源的Python包裝器,用於簡化Lumina模型的載入和使用。它支援自訂節點和工作流,使得開發者能夠更便捷地整合Lumina模型到自己的專案中。該外掛主要面向希望在Python環境中使用Lumina模型進行深度學習或機器學習的開發者。
Meta Chameleon是由Meta公司開發的一款機器學習模型,它為非商業研究用途提供支援,包括研究、開發、教育、處理或分析等,並不以商業利益或對您或他人的貨幣補償為主要目的。模型包括機器學習模型程式碼、訓練好的模型權重、推理啟用程式碼、訓練啟用程式碼、微調啟用程式碼、演示材料等。
Samba是一個簡單而強大的混合模型,具有無限的上下文長度。它的架構非常簡單:Samba = Mamba + MLP + 滑動視窗注意力 + 層級MLP堆疊。Samba-3.8B模型在Phi3資料集上訓練了3.2萬億個token,主要基準測試(例如MMLU、GSM8K和HumanEval)上的表現大大超過了Phi3-mini。
transformers.js 是一個JavaScript庫,旨在為網頁提供先進的機器學習能力。它允許使用者在瀏覽器中直接執行預訓練的Transformers模型,無需伺服器支援。該庫使用ONNX Runtime作為後端,支援將PyTorch、TensorFlow或JAX模型轉換為ONNX格式。