CBLUE: A Chinese Biomedical LanguageUnderstanding Evaluation Benchmark

paper:https://arxiv.org/pdf/2106.08087

摘要

人工智能(AI),随着生物医学语言理解的最新进展,正在逐渐改变着医学实践。随着生物医学语言理解基准的发展,人工智能应用在医学领域得到了广泛的应用。然而,大多数基准都局限于英语,这使得在其他语言中复制英语的许多成功具有挑战性
为了促进这个方向的研究,我们收集现实世界的生物医学数据,这是第一位中国生物医学语言认识评估(CBLUE)基准:
一种自然语言理解任务,包括命名实体识别,信息提取,临床诊断标准化,单句/句子分类,以及用于模型评估,比较和分析的相关在线平台。为了对这些任务进行评估,我们报告了目前使用的11种预先训练过的中文模型的实证结果,实验结果表明,最好的神经模型的表现远远不如人类的肉眼。我们的基线发布在https://tianchi.aliyun.com/dataset/dataDetail?dataId=95414&lang=en-us

介绍

人工智能正在逐渐改变医疗保健和生物医学研究的格局。随着生物医学数据集的快速发展,生物医学自然语言处理(BioNLP)促进了广泛的应用,如生物医学文本挖掘,利用电子健康记录(EHRs)中的文本数据。例如,BioNLP方法可用于通过电子病历中的文本和信息,为大流行(COVID-19)期间的高危人群提供专业医疗建议。这种改进和模型快速迭代背后的关键驱动力是通用评估数据集和基准的使用。诸如BLURB、PubMedQA等先驱基准为我们提供了进行生物医学语言理解研究和开发现实世界应用程序的机会。不幸的是,这些基准大部分都是用英语开发的,这使得相关机器智能的开发以英语为中心。不幸的是,这些基准大部分都是用英语开发的,这使得相关机器智能的开发以英国为中心。尽管中国发言人占世界人口的四分之一,但也没有现有的中国生物医学语言理解评估基准。

为了解决这一问题并促进中文自然语言处理研究,我们首次引入了包含8个生物医学语言理解任务的全面中文生物医学语言理解评估(CBLUE)基准。这些任务包括命名实体识别、信息提取、临床诊断规范化、短文本分类、问答(迁移学习设置)、意图分类、语义相似度等。

我们在CBLUE上评估了几个预训练的中文语言模型,并报告他们的表现。目前的模型仍然远远低于单个人的性能标准,为未来的改进留下了空间。我们还通过个案研究对中国生物医学语言理解的挑战和语言差异进行了综合分析。我们打算为中国的生物信息学社区开发一个类似glue的通用开放平台,而这项工作是朝着这个方向迈出的一小步。总体而言,本研究的主要贡献如下:

  • 我们提出了第一个中文生物医学语言理解基准,一个开放式的,社区驱动的项目,有八个不同的任务。该基准为中国生物信息学社区提供了一个平台,鼓励人们贡献新的数据集。
  • 我们报告了对11种中文预训练语言模型的系统评估,以理解这些任务带来的挑战。为了将来的研究目的我们将基线的源代码作为工具包发布https://github.com/CBLUEbenchmark/CBLUE

相关工作

在过去的几年中,已经开发出了一些评估一般语言理解能力的基准。GLUE是作为正式挑战而开发的第一个框架,它提供了任务无关迁移学习技术之间的直接比较。SuperGLUE是GLUE之后的样式,引入了一套新的更困难的语言理解任务,一个软件工具包和一个公开的排行榜。这些通用领域的基准为研究人员提供了一个理想的目标,也是我们可以自信地说我们在我们的领域取得了巨大进步的部分原因。

对于BioNLP,许多数据集和基准被提出,以促进生物医学语言理解。Tsatsaronis等人提出了生物医学语言理解数据集,以及大规模生物医学语义索引和问答竞赛。Jin等人提出了一种从PubMed摘要中收集的新型生物医学问答数据集PubMedQA。Pappas等人提出了一种可公开获得的cloze风格的生物医学机器阅读理解(MRC)数据集。Gu等人创建了一个基于生物医学语言理解和推理基准(BLURB)的排行榜。与一般的领域语料库不同,生物医学语料库的标注需要专家的介入,而且费时费力。此外,大多数基准都是基于英语的;忽略其他语言意味着可能会丢失潜在有价值的信息,这有助于泛化。

本研究以中文为研究对象,旨在开发首个中文生物医学语言理解基准。请注意,汉语在语言上不同于英语和其他印欧语言,因此需要一个明确为汉语设计的BioNLP评测基准。

CBLUE Overview

CBLUE由8个中文生物医学语言理解任务组成。下面我们将介绍CBLUE的任务定义、详细的数据收集过程和特点。

Tasks

CMeEE 中文医学命名实体识别,在Chip2020中首次发布的数据集,是用于CMeEE任务。给定预定义schema,任务是从给定的句子中识别和提取实体,并将它们分类为9类:: disease, clinical manifestations, drugs, medicalequipment, medical procedures, body, medical examinations, microorganisms, 和department

CMeIE CMeIE任务使用的数据集也是CHIP2020发布的中文医学信息提取。这项任务的目的是识别符合图式约束的句子中的实体和关系。数据集中定义了53个关系,包括10个同义子关系和43个其他子关系。

CHIP-CDN CHIP- cdn任务使用了CHIP临床诊断标准化(CHIP Clinical Diagnosis Normalization),该数据集旨在对中国电子病历的最终诊断进行术语标准化。鉴于原始短语,任务是基于北京临床版V601的疾病(ICD-10)标准的国际疾病分类的标准术语。

CHIP-CTC CHIP- CTC任务中使用的CHIP临床试验分类是一个用于对临床试验合格标准进行分类的数据集,该数据集是确定受试者是否符合临床试验的基本指导原则。所有文本数据均来自中国临床试验注册中心(ChiCTR)网站,共定义了44个类别。
任务就像文本分类;我国临床试验标准的研究和语料库虽然不是一项新课题,但仍存在一定的局限性,希望能够促进今后的社会效益研究。

CHIP-STS CHIP 语义文本相似度,在non-i.i.d(非独立同分布)句子相似性的数据集,设置用于CHIP-STS任务。具体来说,任务的目的是在中文疾病问题和回答数据之间进行疾病类型之间的学习转移。给定与5种不同疾病相关的题对(训练集和测试集的疾病类型不同),任务旨在确定两个句子的语义是否相似。

KUAKE-QIC KUAKE Query Intent Classification,是一个用于意图分类的数据集,用于KUAKE- QIC任务。根据搜索引擎的查询,本任务需要将每一个分类为KUAKE-QIC定义的11个医疗意向类别之一,包括diagnosis, etiology analysis,treatment plan, medical advice, test result analysis, disease description, consequence prediction,precautions, intended effects, treatment fees, 和 others

KUAKE-QTR KUAKE Query Title Relevance是一个用于估计查询文档标题相关性的数据集,用于KUAKE-QTR任务。给定查询(例如,“维生素B缺乏的症状”),任务旨在找到相关标题(例如,“维生素B缺乏的主要表现形式”)。

KUAKE-QQR KUAKE查询-查询相关性,一个用于评估两个查询中表达的内容的相关性的数据集,被用于KUAKE-QQR任务。与KUAKE-QTR类似,该任务旨在估计查询-查询相关性,这是现实搜索引擎中必不可少且具有挑战性的任务。

Data Collection

由于机器学习模型主要是数据驱动的,数据扮演着关键角色,而且通常是以静态数据集的形式出现的。我们从不同的来源为不同的任务收集数据,包括临床试验、电子病历、医学书籍和来自真实世界的搜索引擎的搜索日志。由于生物医学数据可能包含病人的姓名、年龄和性别等隐私信息,所有收集的数据集都是匿名的,并由伦理委员会进行审查,以保护隐私。下面我们将详细介绍数据收集。

临床试验的收集
我们从ChiCTR收集临床试验合格标准文本,ChiCTR是一个非营利组织,为临床试验信息提供注册。我们排除了无意义的文本,并注释了剩余的文本,以生成CHIP-CTC数据集。

EHRs的收集
我们获取了几家三级甲等医院的病案最终诊断结果,并抽取不同科室的少量诊断项目,构建CHIP-CDN数据集进行研究。最终诊断不涉及隐私信息。

医学论坛收集
受新冠肺炎疫情影响,通过互联网进行在线咨询日益普及。为了促进数据的多样性,我们选择了患者的在线问题。注意,大多数问题是主要抱怨。为保证语料库的权威性和实用性,我们还选择了《儿科学》、《临床儿科学》和《临床实践》等医学教材。我们收集来自这些来源的数据来构建CMEIE和CMEEE数据集。

搜索引擎日志收集
我们还从真实世界的搜索引擎收集搜索日志,比如阿里巴巴KUAKE搜索引擎。首先,我们通过医疗标签过滤原始搜索日志中的搜索查询,以获得候选医疗文本。然后,我们对具有非零相关性得分的每个查询的文档进行抽样(即,确定文档是否与查询相关)。具体来说,我们将所有的文档分为三类,即高、中、尾文档,然后对数据进行统一抽样,保证多样性。我们利用搜索日志中的数据构建KUAKE-QTC、KUAKE-QTR和KUAKE-QQR数据集。

标注

每个样本都由三到五个人群工作人员注释,并且使用投票最多的注释来估计人类的表现。在标注阶段,我们增加了控制性问题,以防止工作人员的不诚实行为。因此,我们拒绝在训练阶段失败任何注解,也不采纳在控制任务中表现较差的标准结果。我们保持严格和高标准的批准和审查至少10个随机样本从每个工人,以决定是否批准或拒绝他们的所有HITs。我们还使用Fleiss Kappa评分计算了批注者之间的平均一致性,发现6个批注中有5个批注具有良好的中等一致性(κ= 0.9)。

特征

Utility-preserving Anonymization 生物医学数据可能被视为对个人隐私的侵犯,因为它们通常包含敏感信息。因此,在发布基准测试之前,我们进行了保留效用的匿名化。

Real-world Distribution为了促进模型的概括,我们的CBLUE基准中的所有数据都不遵循现实世界的分布而无需上/下的采样。如图1(a)所示,我们的数据集遵循Zipf定律的长尾分布,因此所有的数据都不可避免地是长尾的。此外,一些数据集,如CMedIE,具有粗粒度和细粒度关系标签的标签层次结构,如图1(b)所示。

Diverse Tasks Setting 我们的CBLUE基准包括八个不同的任务,包括命名实体识别,关系提取和单句/句子分类。除了独立和同分布外,我们的CBLUE基准还包含了CHIP-STS数据集支持的特定迁移学习场景,其中测试集与训练集有不同的分布。

Leaderboard

我们为用户提供一个排行榜,让他们在CBLUE上提交自己的结果。当用户提交他们的预测结果时,评估系统会给每个任务给出最终的分数。该平台从阿里云提供60小时免费GPU时间,帮助研究人员开发和训练他们的模型。

Distribution and Maintenance

我们的CBLUE基准于2021年4月1日在线发布。到目前为止,超过300名研究人员已应用数据集,超过80支队伍向我们的平台提交了他们的模型预测,包括医疗机构(北京联盟医学院医院等),大学(清华大学,浙江大学等))和公司(百度,JD等)。 我们将继续通过参加符合新要求和添加新任务来维持基准。

重复性

为了更容易使用CBLUE基准,我们还提供了一个在PyTorch中实现的工具包来实现再现性。我们的工具包支持主流的培训前模型和广泛的目标任务。与现有的训练前模型工具包不同,该工具包旨在快速验证CBLUE基准测试的性能。

实验

Baselines 我们在不同的中文预训练语言模型的基础上进行了实验。我们为每个CBLUE任务添加额外的输出层(例如MLP),并对预先训练的模型进行微调。 可重复性的代码可用https://github.com/CBLUEbenchmark/CBLUE

Models 我们评估以下公众可用的中文训练模型:
- BERT-base。我们使用的基本模型有12层,768个隐藏层,12个heads和1.1亿个参数。
- BERT-wwm-ext-base。基于全词掩蔽的汉语预训练BERT模型。
- RoBERTa-large。与BERT相比,RoBERTa去掉了下一句预测目标,动态改变了应用于训练数据的掩蔽模式。
- ALBERT-tiny/xxlarge。 Albert是一个预先接受的模型,具有两个目标:屏蔽语言建模(MLM)和句子排序预测(SOP),其在变压器中的不同层上共享权重。
- ZEN 一种基于bert的中文文本编码器,通过n-gram表示增强,在训练中考虑不同的字符组合。
- Mac-Bert-Base/large。MAC-BERT是一种改进的BERT,具有新的MLM作为校正预训练任务,这减轻了预训练和微调的差异。
- PCL-MedBERT。 由鹏程实验室智能医学研究小组提出的预训练医学语言模型,在医学问题匹配和命名实体识别方面表现优异。

我们使用Pytorch实施所有基线。注意 BERT-base, ALBERT-tiny/xxlarge, 和RoBERTa-large 是预训练语言模型的代表。. BERT-wwm-ext-base, RoBERTa-wwm-ext-base/large, ZEN, Mac-BERT-base/large 利用中文的特定特性(例如,单词和短语)。PCL-MedBERT进一步利用领域自适应前训练,这可以持续地提高在生物医学领域的任务表现。我们调整所有超参数的基础上,每个模型的性能在开发集。我们执行每个实验5次,并计算平均性能。所有训练细节都可以在附录中找到。

Benchmark Results

我们在表2中的CBLUE基准上报告了我们基准模型的结果。我们注意到,使用更大的预训练语言模型可以获得更好的性能。我们还观察到,在某些任务(如CTC、QIC、QTR和QQR)中,使用全词掩蔽的模型并不总是比其他模型具有更好的性能,这表明我们的基准任务具有挑战性,需要开发更复杂的技术。最后,我们注意到PCL-MedBERT在中文生物医学文本处理方面是最先进的,但它的表现并不像我们预期的那样好。这进一步展示了我们的基准难度,而同时认为难以迅速实现出色的性能。

Human Performance

对于CBLUE中的所有任务,我们要求人工注释器对来自测试集的实例进行标记,并计算大多数注释对gold lab的投票。与SuperGLUE类似,我们首先需要在注释者处理测试数据之前对他们进行训练。注释者被要求注释来自开发集的一些数据;然后,根据黄金标准验证他们的注释。注释者需要反复纠正他们的注释错误,以便他们能够掌握具体的任务。最后,他们对测试数据中的实例进行注释,这些注释用于计算最终的人工分数。结果如表3和表2的最后一行所示。在大多数任务中,人类往往比机器学习模型表现得更好。我们将在下一节详细分析人工性能。

Case studies

我们选择两个数据集:CMEEE和Kuake-QIC,分别进行序列标签和分类任务,以进行案例研究。如图2所示,我们报告了各种错误案例的比例统计数据。为CMeEE,我们注意到实体重叠、歧义、需要领域知识、标注错误等是导致预测失败的主要原因。此外,存在许多具有重叠实体的实例,这可能会导致命名实体识别任务的混乱。而在KUAKE-QIC的分析中,近一半的不良案例是由于多重触发和口语化造成的。在搜索查询中,白话化是很自然的,这意味着对中国医学文本的一些描述过于简化、白话化或不准确。

我们在表4中展示了一些关于CMeEE的案例。在第二行,我们注意到给定的实例“皮疹可因宿主产生特异性的抗毒素抗体而减少” ROBERTA和PCL-MedBERT得到了不同的预测。原因是存在医疗术语,如抗毒素抗体(抗抗体)。ROBERTA不能正确识别这些标记,但是PCL-MedBERT,在医学语料库上预先训练,可以成功地做到这一点。PCL-MedBERT可以准确提取实体“缺失,易位,倒位”,来自对其他模型有挑战性的长句子。

我们在表5中进一步向Kuake-Qic展示了一些案例。在第一种情况下,我们注意到BERT和BERT-EXT都无法获得查询的意图标签 “请问淋巴细胞比率偏高、中性细胞比率偏低有事吗? ”。虽然Medbert可以获得正确的预测。因为淋巴细胞比率和中性细胞比率是生物医学术语,通用pre-trained语言模型利用领域知识来理解这些短语。此外,在第二个例子中 “咨询:请问小孩一般什么时候出水痘”,我们观察到所有模型对查询得到的预测都不正确 。请注意,在搜索查询中存在大量口语化文本(口语化),它们有不同的分布,因此,会误导模型的预测。

综上所述,我们认为CBLUE的任务并不容易解决,因为汉语具有独特的特点,需要考虑更健壮的模型,充分理解汉语的语义,特别是在医学领域的非正式或正式用法。

局限性

尽管我们的CBLUE提供了不同的设置,但仍有一些任务没有被基准测试覆盖,如医疗对话生成或医疗诊断。我们鼓励学术界和工业界的研究人员贡献新的数据集。此外,我们的基准是静态的;因此,模型仍然可能在任务上获得出色的性能,但在简单的挑战示例上失败,并且在现实场景中不稳定。我们将此作为未来构建平台的工作,包括数据集创建、模型开发和评估,从而实现更健壮和信息更丰富的基准测试。

结论与未来工作

在本文中,我们提出了一个由8个自然语言理解任务组成的中文生物医学语言理解评估基准(CBLUE),以及一个用于模型评估的在线排行榜。我们评估了cblue11个现有的语言表示模型,并分析了它们的结果。结果表明,最先进的模型处理一些更具挑战性的任务的能力有限。与英语基准相比,如GLUE/SuperGLUE模型,其模型性能已经与人类性能相匹配,但在中文生物医学语言相差甚远。我们希望我们的基准测试能够在未来帮助突出更强大的自然语言理解模型。

广泛影响性

Covid-19(Coronavirus疾病2019)大流行对社会产生了重大影响,因为Covid-19严重影响健康。 缺乏信息会导致疫情爆发中经历的许多困难; 解决这些需求的尝试导致了研究人员和公众的信息过载。 生物医学自然语言处理 - 解释人类语言的人工智能分支 - 可以应用于解决Covid-19大流行的许多信息需要迫切。 不幸的是,大多数语言基准都是英文的,目前没有生物医学基准。 我们的基准CBLUE作为第一届中文生物医学语言理解基准,可以作为一个开放式测试平台,用于促进这项技术的进步