為了解決中醫 QA 領域的研究空白,增強對話能力,MedChatZH是一個專門為中醫患者對話最佳化的生成式 LLM。首先在大量的中醫文獻上進行訓練,使其獲得了傳統中醫知識的全面可靠基礎。然後在一個高質量的資料集上進行微調,該資料集結合了醫學和一般對話,經過啟發式和基於模型的過濾等複雜資料處理步驟,以去除不相關或敏感內容,例如個人資訊和口語回覆。MedChatZH 的表現在真實世界的中醫問答基準資料集上得到了測試,評估指標涵蓋了傳統和基於獎勵的模型評分。結果表明,MedChatZH 在中醫對話 LLMs(如 BenTsao(原名:HuaTuo)和 HuatuoGPT)上表現優異。
論文地址:https://www.sciencedirect.com/science/article/abs/pii/S0010482524003743
資料集下載鏈接 https://huggingface.co/datasets/tyang816/MedChatZH
論文的主要貢獻如下:
- 提出了 MedChatZH,一個專門針對傳統中醫會診對話設計的生成式 AI 系統,表現良好。
- 收集和整理了大量中醫文獻,構建了一個預訓練語料庫,並構建了一個結合一般對話和醫學對話的高質量資料集。透過啟發式和獎勵評估,過濾掉敏感資訊和質量低下的口語回覆。
- 在真實世界的中醫問答基準資料集上評估了 MedChatZH 的效能,展示了其在多個評估指標上優於其他基線模型。
MedChatZH 在管理傳統中醫對話的獨特複雜性方面表現出色,這可以歸因於它在大量中醫文獻上的廣泛預訓練,以及在結合醫學和一般對話的資料集上進行微調。MedChatZH 的有效性有望為特定於不同語言和文化背景的 LLMs 開闢新途徑。