MambaByte:無標記的選擇性狀態空間模型
曼巴位元組是一種無標記的語言模型,直接從原始位元組中學習,消除了子詞標記化的偏見。它在位元組上執行,但會導致序列顯著變長,標準的自迴歸Transformer在這種情況下的擴充套件性較差。我們在位元組序列上自迴歸訓練了曼巴位元組,這是Mamba狀態空間模型的無標記適應。我們的實驗表明,與其他位元組級模型相比,曼巴位元組具有較高的計算效率。我們還發現,曼巴位元組在與最先進的子詞Transformer的競爭中表現出色,甚至超越其效能。此外,由於長度的線性擴充套件,曼巴位元組在推理過程中比Transformer具有更快的速度。我們的發現證實了曼巴位元組在實現無標記語言建模方面的可行性。