語言模型 Archives - Page 3 of 8 - AI書籤-全球ai人工智慧產品和服務

Meditron：醫學大型語言模型套件

Meditron 是一套開源的醫學大型語言模型（LLM）套件。它透過對一份經過綜合篩選的醫學語料庫進行持續預訓練，包括選定的 PubMed 論文和摘要、一份新的國際認可的醫學指南資料集以及一個通用領域語料庫，將 Llama-2 適應到醫學領域。Meditron-70B 在相關資料上進行了微調，效能優於 Llama-2-70B、GPT-3.5 和 Flan-PaLM。

Phi-2：微軟研究院開發的小型語言模型

理解, 語言模型

Phi-2是一個2.7億引數的語言模型,透過優質的資料和創新技術,實現了超越模型規模的表現,在複雜的語言理解和推理測試中,匹敵或超過大25倍規模的模型。

Quartzite AI是一款功能強大、介面豐富的全能AI模型工具集。它提供了最佳的Prompt IDE，讓您輕鬆編寫複雜的模型提示，並比較輸出的質量。它整合了最優秀的AI模型，可以根據需要開關它們的開關。您可以在Quartzite AI中輕鬆編輯複雜的提示，在Markdown編輯器中儲存草稿並提交。您可以透過測試不同的變體和模型設定來改進您的提示。它不需要訂閱費用，採用按使用量計費的方式，可以在應用程式中跟蹤支出。您可以建立自己的模板庫或使用預設模板庫。它還提供了變數和資料填充功能，可以無縫地填充模板。透過團隊協作，您可以與團隊成員共同編寫提示、共享模板和資料，並在一個平臺上管理所有API費用。您還可以下載各種檔案格式的提示和完成結果以供進一步使用。

ChatMusician：整合音樂能力的開源LLM

語言模型, 音樂生成

ChatMusician是一個開源的大型語言模型（LLM），它透過持續的預訓練和微調，整合了音樂能力。該模型基於文字相容的音樂表示法（ABC記譜法），將音樂視為第二語言。ChatMusician能夠在不依賴外部多模態神經結構或分詞器的情況下，理解和生成音樂。

Jamba：突破性SSM-Transformer開放模型

大規模語料庫, 語言模型

Jamba是一款基於SSM-Transformer混合架構的開放語言模型,提供頂級的質量和效能表現。它融合了Transformer和SSM架構的優勢,在推理基準測試中表現出色,同時在長上下文場景下提供3倍的吞吐量提升。Jamba是目前該規模下唯一可在單GPU上支援14萬字元上下文的模型,成本效益極高。作為基礎模型,Jamba旨在供開發者微調、訓練並構建定製化解決方案。

Baichuan 3：超千億引數的大語言模型

自然語言處理, 語言模型

百川智慧Baichuan 3是一款超千億引數的大語言模型，在多個權威通用能力評測中展現出色，特別在中文任務上超越了GPT-4。它在自然語言處理、程式碼生成、醫療任務等領域表現優異，採用了多項創新技術手段提升模型能力，包括動態資料選擇、重要度保持和非同步CheckPoint儲存等。訓練過程中採用因果取樣的動態訓練資料選擇方案，保證資料質量；引入了重要度保持的漸進式初始化方法，最佳化模型訓練穩定性；並針對並行訓練問題進行了一系列最佳化，效能提升超過30%。

LLMs-from-scratch：深入瞭解大型語言模型的內部工作

深度學習, 語言模型

LLMs-from-scratch將帶您逐步瞭解LLMs的工作原理。本書將逐步指導您建立自己的LLM，透過清晰的文字、圖表和示例解釋每個階段。所描述的用於教育目的的訓練和開發自己的小型但功能齊全模型的方法，與建立ChatGPT等大規模基礎模型的方法相似。

H2O-Danube-1.8B：1.8B語言模型，開源免費

自然語言處理, 語言模型

H2O-Danube-1.8B是一個基於1T標記訓練的1.8B語言模型，遵循LLama 2和Mistral的核心原則。儘管我們的模型在訓練時使用的總標記數量明顯少於類似規模的參考模型，但在多個基準測試中表現出極具競爭力的指標。此外，我們還發布了一個經過監督微調和直接偏好最佳化訓練的聊天模型。我們將H2O-Danube-1.8B以Apache 2.0許可證開放原始碼，進一步將大型語言模型民主化，讓更廣泛的受眾經濟地受益。