MambaByte:無標記的選擇性狀態空間模型

Link:mambabyte
曼巴位元組是一種無標記的語言模型,直接從原始位元組中學習,消除了子詞標記化的偏見。它在位元組上執行,但會導致序列顯著變長,標準的自迴歸Transformer在這種情況下的擴充套件性較差。我們在位元組序列上自迴歸訓練了曼巴位元組,這是Mamba狀態空間模型的無標記適應。我們的實驗表明,與其他位元組級模型相比,曼巴位元組具有較高的計算效率。我們還發現,曼巴位元組在與最先進的子詞Transformer的競爭中表現出色,甚至超越其效能。此外,由於長度的線性擴充套件,曼巴位元組在推理過程中比Transformer具有更快的速度。我們的發現證實了曼巴位元組在實現無標記語言建模方面的可行性。

需求人群:

"曼巴位元組適用於需要消除子詞標記化偏見、提高計算效率的語言建模任務。"

使用場景示例:

用於自然語言處理任務的曼巴位元組模型

曼巴位元組在文字生成應用中的使用示例

使用曼巴位元組進行情感分析的案例

產品特色:

無標記語言建模

消除子詞標記化偏見

位元組級模型訓練

提高計算效率

返回頂端