MNBVC:MNBVC是一個超大規模的中文語料集,對標chatGPT訓練的40T資料

Link:mnbvc
MNBVC(Massive Never-ending BT Vast Chinese corpus)是一個旨在為AI提供豐富中文語料的專案。它不僅包括主流文化內容,還涵蓋了小眾文化和網路用語。資料集包括新聞、作文、小說、書籍、雜誌、論文、臺詞、帖子、wiki、古詩、歌詞、商品介紹、笑話、糗事、聊天記錄等多種形式的純文字中文資料。

需求人群:

"適用於自然語言處理研究者、中文機器學習開發者以及需要大量中文語料的AI專案。"

使用場景示例:

用於訓練中文聊天機器人

支援中文文字挖掘和情感分析

作為中文自然語言理解模型的訓練基礎

產品特色:

提供大規模的中文語料資料

支援自然語言處理和機器學習研究

促進中文AI技術的發展

返回頂端