1. 背景
在开发“本草”医学大模型的过程中,我们深刻意识到构建高质量医学基准的重要性。目前,虽然已经有许多中文医学基准相继推出,但这些基准或多或少都存在一些问题,导致我们无法准确评估模型的能力,从而影响对模型性能的判断和改进。为了解决现有医学基准的不足,我们自主构建了一个更加完善的医学基准,以更准确地评价模型的能力。
2. 介绍
当前的基准存在两个显著问题:(1)根据之前的研究[1,2],许多医学大语言模型在回答多项选择题时表现出较低的一致性,使其回答看起来像是随机的。如图1中的前两个例子所示,在更改答案选项之前,ChatGLM2-6B给出了详细的推理,但得出了错误的答案。而在答案选项被修改之后,它的回答正确了,但内容简短得多。这表明大语言模型在回答多项选择题时存在显著的不确定性。(2)之前的基准中开放性问题不够复杂,因为许多问题是从真实的病历或医患对话中收集的,导致问题相对简单。而这种简单性不足以展示大语言模型在广泛医学领域中的能力。图1中的最后两个例子展示了简单和复杂的开放性问题的案例。尽管ChatGLM2-6B对简单问题的回答尚可,但对更复杂问题的回答缺乏一定的深度、参考价值和专业性。
为了解决这两个问题,我们构建了CMCOQA(A Chinese Medical Complex Open-Question Answering Benchmark)基准,用于评估不同医学大语言模型的医学能力。我们手动构建了100个复杂的医学问题作为种子问题,然后使用Self-Instruct方法[3]将这一集合扩展到1200个问题。为了获得问题的标准答案,我们结合了GPT-4o[4]生成和人工校准的方法,大幅降低了构建成本。我们使用GPT-4o生成答案,并通过自检确保回答符合完整性、深度和专业性的要求(详细信息见3.2小节)。在获得所需答案后,我们会咨询一些医学专业人士进行审核。对于不符合要求的回答,我们将根据修改建议让GPT-4o重新生成,直到满足要求。
在评估方法方面,我们采用了人工评分、GPT-4o评分和自动化评估。受MedAlign[5]的启发,我们利用COMET[6]、BERTScore[7]、METEOR[8]和BLEU[9]等指标来评估大语言模型在中文回答生成中的表现。此外,我们测量了不同评分与人工评估之间的相关系数,以寻找一种更接近人工评估并且成本更低的方法。实验表明,BLEU、METEOR和COMET指标与人工评估有较高的相关性。因此,这些指标可能更适合用于评估大语言模型的回答质量,为各种大语言模型的回答评分提供了一种成本效益高的方法。
图1 多项选择题和开放问答的示例我们构建了一个包含1200个复杂医学开放性问题的数据集,形成了CMCOQA基准。该基准旨在测试大语言模型在医学知识方面的能力。接下来的部分将从多个角度介绍CMCOQA。
3.1. 构建目的
目前,多项选择问答(MCQA)已成为大语言模型的主流客观评估方法,特别是在领域特定的大模型中。然而,大语言模型在回答多项选择题时表现出随机性。为说明这一现象,我们引入了NPA(Normalized
Plurality Agreement)指标。该指标表示在多次随机打乱多项选择题选项后,最常被选择的选项所占比例的调整值(范围从0到1)。计算NPA的公式为:
其中,T 为测试总次数,E 为无结果的测试次数,T-E 为有效选择的总次数,n为选项数量,为第i 个选项在所有测试中被选择的次数。
我们以CMB的CExam数据集为例,对每个多项选择题选项进行五次打乱,并使用不同的大语言RLHF模型进行测试。从表1可以看出,ChatGLM2-6B表现相当出色,这可能得益于使用RLHF技术进行了大量的训练。然而,其他大语言模型表现相对较差,因此仅使用多项选择题来评估大语言模型的能力是不合理的。
同时,以往基准测试中的大多数开放式问题都是从真实的医疗记录或医患对话中收集的。这些核心问题往往相对简单,无法充分展示大语言模型对医学知识的掌握。许多问题相对简单,不能充分体现大语言模型在广泛医学领域的能力。
3.2. 评测维度
我们建立了三个评估维度:完整性、深度和专业性。完整性指的是回答的广度,深度表示回答的深度,而专业性强调的是回答的专业质量。这些维度全面覆盖了大语言模型响应的各个方面,同时保持较低的重叠度,从而降低评估成本。我们没有单独使用“流畅性”等指标,因为大多数大语言模型的回复是较为流畅的。我们将准确性和简洁性视为专业性的指标。更详细的信息见表2。
表2 评测维度的详细介绍
对于每个维度,我们采用0到3的评分系统。根据我们的实际测试,较为简单的评分分类有助于避免专家在评分时的纠结。此外,这种方法还能充分发挥自动化评分工具(如GPT-4o)的优势,因为当前的大语言模型在处理更细致的评分时表现不佳。
3.3. 构建细节
为了避免使用选择题在评估大语言模型时产生偏差,并更好地评估大语言模型在医学领域的专业水平,我们利用GPT-4o构建了1,200道复杂的医学开放性问题,形成了CMCOQA基准。具体方法是,首先人工编写100道复杂医学问题,然后采用Self-Instruct方法将题目数量扩展到1,200道。对于这1,200道问题,我们通过人工审核确保问题的有效性,并力求涵盖不同的医学科室。每个问题都必须足够复杂,既需要涵盖广泛的医学知识,又需具备一定的深度和广度。我们利用GPT-4o构建参考答案,并根据表2中的三个维度进行自我检查评估。对于总分低于满分9分的答案,必须重新生成,直到总分达到9分为止。在获得最终答案后,我们邀请专业医学人员进行审核。
为了测试数据集的平衡性,我们使用GPT-4o按照ICD-10标准对问题进行分类,并对某些类别进行调整,以更好地反映数据的分布情况。数据集的分布如图2所示,可以看出,该数据集全面覆盖了各种疾病,且分布相对均匀。
3.4. 示例
在图3中,我们展示了几个示例,以说明完整性、深度和专业性的重要性。第一个示例中的回答缺少一个关键点,导致完整性不足。第二个示例中的回答过于简略,没有对每个症状和诊断方法进行详细分析,也未提供更深入的见解,因此缺乏深度。第三个示例的回答包含事实错误,并且存在大量重复内容,影响了专业性。
图3 CMCOQA中的问答示例4. 实验结果
4.1. 评测方法
我们对所有大语言模型的回答分别采用人工评分和GPT-4o评分,并依据表2中列出的三个方面进行评估。在自动化指标方面,受MedAlign的启发,我们选择了COMET、BERTScore、METEOR和BLEU四种评估指标进行测试。COMET是一种用于机器翻译的评估指标,我们使用了支持多种语言(包括中文)的xlm-roberta-large模型。BERTScore则用于评估文本生成质量,它通过BERT模型计算参考文本和候选文本中词嵌入之间的余弦相似度。我们特别采用了针对中文优化的BERT-base-Chinese模型,该模型在BERT基础上进行了预训练和优化。
4.2. 结果
我们在表3中列出了各种大语言模型的平均得分,并分别按人类评估和GPT-4o的结果进行了展示。从中可以看出,在通用领域的大语言模型中,Baichuan2-7B-Chat和Baichuan2-13B-Chat的表现相对较好,这可能归因于其广泛使用了医学训练数据。而在医学领域的大语言模型中,“本草”大模型的表现尤为出色,这是因为其采用了知识微调[10]方法,结合了外部医学数据库,从而增强了其在医学领域的专业性。
表3 人工和GPT-4o的评分结果我们还计算了人类评分、GPT-4o评分和自动化指标的排序,并利用Kendall秩相关系数[11]计算了后两者与人类评分的相似度。从表4可以看出,BLEU、METEOR和COMET指标的表现都较为出色。令人意外的是,GPT-4o与人类评估者之间的相关性并不高,这表明使用GPT-4o来评估开放式问答的质量可能与人类判断不完全一致。因此,这三个指标可能是评估表2中三个维度的最佳选择。
5. 总结
尽管已经出现了许多中文医学基准,但在测试医学知识的掌握程度上仍显不足。CMCOQA基准涵盖了多样化的复杂开放式医学问题,旨在提升对大语言模型能力的评估。我们引入了三个评估维度,并采用了人工评估、GPT-4o评估和自动化指标来展示中文医学大语言模型的专业水平。通过计算各种指标与人工评估之间的相关系数,我们展示了不同自动化指标在评分结果上的优越性,并提供了一种用于开放领域问答的在线基准评估方法。这有望促进中文医学大语言模型对医学知识的进一步掌握及其更广泛的应用。
参考文献
[1] Joshua Robinson and David Wingate,
”Leveraging Large Language Models for Multiple Choice Question
Answering,” in The Eleventh International Conference on Learning
Representations, 2023.
[2] H. Wang, S. Zhao, Z. Qiang, B. Qin, and
T. Liu, ”Beyond the answers: Reviewing the rationality of multiple
choice question answering for the evaluation of large language models,” arXiv
preprint arXiv:2402.01349, 2024.
[3] Y. Wang, Y. Kordi, S. Mishra, A. Liu,
N. A. Smith, D. Khashabi, and H. Hajishirzi, ”Self-instruct: Aligning
language models with self-generated instructions,” arXiv preprint
arXiv:2212.10560, 2022.
[4] OpenAI, ”Hello GPT-4o,”
https://openai.com/index/hello-gpt-4o/, 2024.
[5] S. L. Fleming, A. Lozano, W. J.
Haberkorn, J. A. Jindal, E. Reis, R. Thapa, L. Blankemeier, J. Z. Genkins, E.
Steinberg, A. Nayak, et al., ”Medalign: A clinician-generated dataset
for instruction following with electronic medical records,” in Proceedings
of the AAAI Conference on Artificial Intelligence, vol. 38, no. 20,
pp. 22021-22030, 2024.
[6] R. Rei, C. Stewart, A. C. Farinha, and
A. Lavie, ”COMET: A neural framework for MT evaluation,” arXiv
preprint arXiv:2009.09025, 2020.
[7] T. Zhang, V. Kishore, F. Wu, K. Q.
Weinberger, and Y. Artzi, ”Bertscore: Evaluating text generation with bert,”
arXiv preprint arXiv:1904.09675, 2019.
[8] S. Banerjee and A. Lavie, ”METEOR: An
automatic metric for MT evaluation with improved correlation with
human judgments,” in Proceedings of the ACL Workshop on Intrinsic and
Extrinsic Evaluation Measures for Machine Translation and/or
Summarization, 2005, pp. 65-72.
[9] K. Papineni, S. Roukos, T. Ward, and
W.-J. Zhu, ”Bleu: a method for automatic evaluation of machine
translation,” in Proceedings of the 40th annual meeting of the Association for
Computational Linguistics, 2002, pp. 311-318.
[10] H. Wang, S. Zhao, Z. Qiang, Z. Li, N.
Xi, Y. Du, M. Cai, H. Guo, Y. Chen, H. Xu, et al., ”Knowledge-tuning
Large Language Models with Structured Medical Knowledge Bases for
Reliable Response Generation in Chinese,” arXiv preprint
arXiv:2309.04175, 2023.
[11] M. G. Kendall, ”Rank correlation
methods,” Griffin, 1948.
参与人员
指导教师:赵森栋副教授、秦兵教授、刘挺教授
项目主要开发者:李子健、王昊淳、徐浩铭
编辑:孙洲浩
理解语言,认知社会
以中文技术,助民族复兴