Aya-23-8B:多語言指令微調的大型語言模型

連結:https://huggingface.co/CohereForAI/aya-23-8B

Aya-23-8B是由Cohere For AI開發的指令微調模型,具有23種語言的強大多語言能力,專注於將高效能預訓練模型與Aya Collection結合,為研究人員提供高效能的多語言模型。

需求人群:

Aya-23-8B模型適用於需要處理多種語言文本生成和理解的研究人員和開發者,特別是在機器學習和自然語言處理領網網域。

使用場景示例:

  • 使用Aya-23-8B生成特定語言的文本。
  • 在多語言聊天機器人中整合Aya-23-8B以提供更自然的對話體驗。
  • 利用Aya-23-8B進行跨語言文本分析和資料探勘。

產品特色:

  • 支援23種語言,包括阿拉伯語、中文、捷克語、荷蘭語、英語、法語、德語、希臘語、希伯來語、印地語、印尼語、義大利語、日語、韓語、波斯語、波蘭語、葡萄牙語、羅馬尼亞語、俄語、西班牙語、土耳其語、烏克蘭語和越南語。
  • 最佳化的transformer架構,用於自迴歸語言模型。
  • 經過預訓練後,該模型進行了指令微調以遵循人類指令。
  • 模型輸入文本,輸出文本生成。
  • 上下文長度支援高達8192。
  • 提供了詳細的使用示例和評估報告。

使用教學:

  • 安裝包含該模型所需更改的transformers原始碼庫。
  • 使用AutoTokenizer和AutoModelForCausalLM從預訓練模型ID載入模型。
  • 格式化訊息並應用聊天範本,包括角色和內容。
  • 使用模型的generate方法生成文本,設定適當的引數如max_new_tokens、do_sample和temperature。
  • 解碼生成的token以獲取最終文本。
  • 透過Hugging Face Space或Cohere playground線上試用Aya-23-8B模型。
返回頂端