Transformer

LLM Transparency Tool:分析Transformer語言模型的內部工作機制

LLM Transparency Tool(LLM-TT)是一個開源的互動式工具包,用於分析基於Transformer的語言模型的內部工作機制。它允許使用者選擇模型、新增提示並執行推理,透過視覺化的方式展示模型的注意力流動和資訊傳遞路徑。該工具旨在提高模型的透明度,幫助研究人員和開發者更好地理解和改進語言模型。

miqu-1-70b:Miqu 1-70b是一個開源的大規模語言模型

Miqu 1-70b是一個開源大規模語言模型,採用了新穎的自我監督學習方法,可以處理各種自然語言任務。該模型引數量達170億,支援多種prompt格式,可fine-tuning生成高質量的文字。其強大的理解和生成能力,使其可廣泛應用於聊天機器人、文字摘要、問答系統等領域。

OLMo-7B:開源自然語言生成模型

OLMo是一個開源的自然語言生成模型,由Allen AI研究所開發,基於Transformer架構,可用於生成高質量的英文文字。它具有生成長度可達4096個token的長文字的能力。OLMo-7B是目前公開的引數量最大的開源英文語言模型之一,擁有69億引數,在多個英文NLP任務上的表現優於同類模型。它可用於文字生成、任務導向的微調等多種自然語言處理任務。

Unified-IO 2:統一的多模態生成模型

Unified-IO 2是一個統一的多模態生成模型,能夠理解和生成影象、文字、音訊和動作。它使用單個編碼器-解碼器Transformer模型,將不同模式(影象、文字、音訊、動作等)的輸入和輸出都表示為一個共享的語義空間進行處理。該模型從頭開始在大規模的多模態預訓練語料上進行訓練,使用了多模態的去噪目標進行最佳化。為了學會廣泛的技能,該模型還在120個現有資料集上進行微調,這些資料集包含提示和資料增強。Unified-IO 2在GRIT基準測試中達到了最先進的效能,在30多個基準測試中都取得了強勁的結果,包括影象生成和理解、文字理解、影片和音訊理解以及機器人操作。

minbpe:Karpathy推出的用於BPE演演演算法的簡潔程式碼專案

minbpe專案旨在為LLM中常用的BPE演演算法建立乾淨、教育性的程式碼實現。該專案提供了兩種Tokenizer,實現了BPE演演算法的訓練、編碼、解碼等主要功能,程式碼簡潔易讀,為使用者提供便捷高效的使用體驗。該專案展現出巨大的關注度和吸引力,相信其會對LLM和自然語言處理技術的發展起到重要作用。

CoTracker:實現增強物體跟蹤的Transformer模型

CoTracker是一個基於Transformer的模型,可以在影片序列中聯合跟蹤稠密點。它與大多數現有的狀態最先進的方法不同,後者獨立跟蹤點,而忽略了它們之間的相關性。我們展示了聯合跟蹤可以顯著提高跟蹤精度和魯棒性。我們還提供了若干技術創新,包括虛擬軌跡的概念,這使CoTracker可以聯合跟蹤7萬個點。此外,CoTracker因果地操作在短時間視窗上(因此適合線上任務),但透過在更長的影片序列上展開視窗進行訓練,這使並顯著改進了長期跟蹤。我們展示了定性印象深刻的跟蹤結果,其中點甚至在遮擋或離開視野時也可以跟蹤很長時間。從定量上看,CoTracker在標準基準測試上優於所有最近的跟蹤器,通常優勢顯著。

Snap Video:Snap影片:用於文字到影片合成的可擴充套件空間時間轉換器

Snap影片是一個影片優先的模型,透過延伸EDM框架系統地解決影片生成域中的運動保真度、視覺質量和可擴充套件性等挑戰。該模型利用幀間的冗餘資訊,提出了一個可伸縮的transformer架構,將空間和時間維度作為一個高度壓縮的1D潛在向量,從而有效地進行空間時間聯合建模,合成時間連貫性強、運動複雜的影片。這種架構使模型可以高效訓練,達到數十億引數規模,在多項基準測試中取得最優效果。

返回頂端