Link:mnbvc
MNBVC(Massive Never-ending BT Vast Chinese corpus)是一個旨在為AI提供豐富中文語料的專案。它不僅包括主流文化內容,還涵蓋了小眾文化和網路用語。資料集包括新聞、作文、小說、書籍、雜誌、論文、臺詞、帖子、wiki、古詩、歌詞、商品介紹、笑話、糗事、聊天記錄等多種形式的純文字中文資料。
需求人群:
"適用於自然語言處理研究者、中文機器學習開發者以及需要大量中文語料的AI專案。"
使用場景示例:
用於訓練中文聊天機器人
支援中文文字挖掘和情感分析
作為中文自然語言理解模型的訓練基礎
產品特色:
提供大規模的中文語料資料
支援自然語言處理和機器學習研究
促進中文AI技術的發展
