2016 ACM | Constructing Linguistic Verb Source for Relation

构建关系抽取的动词源
摘要
在生物文献挖掘中,关系抽取是一个重要的课题。在正则中,动词是确定实体之间关系类型的键。然而,关于生物医学动词表结构的研究和生物医学动词定义的研究尚未得到足够的重视。因此,我们试图定义生物医学动词,并基于该定义,我们建立了实际的动词列表,并使用PKDE4J构造了该列表。根据动词的特征和关系类型构建动词列表,并将提取的动词用名词形式表示。最后,我们建立了生物医学动词的实际列表,并构建了整个PubMed记录的语言源。

介绍
生物文献挖掘的重要任务是命名实体识别(NER)和关系提取(RE)。以往的许多研究只关注实体的提取和关系是否存在。基于共现的方法在稀土开采中被广泛应用。在以往的研究中,没有对两个实体之间的关系类型进行描述。

一般采用基于本体的方法提取更精确的关系和关系类型。如果在一个句子中提取两个实体,我们可以检查这一对的有效性,并使用本体(如UMLS)提取关系的类型。然而,这种方法有两个局限性。唯一的问题是实际的关系没有得到反映。如果两个实体在本体论中仅存在负相关关系,则文本中呈现的其他关系将消失。结果不包括句子内部的上下文信息。另一种是本体的容量低于我们的需要。大多数本体都是手动生成的,而不是自动生成的。因此,很明显,一个本体没有足够的信息。

在正则化中,提取句子中的上下文信息是一项重要的任务,因为上下文信息可以帮助我们确定关系类型。动词是关系类型的关键。动词是关系类型的关键。Chklovski和Pantel提到动词是描述事件和表达实体之间关系的主要工具。他们利用Sun和Korhonen的研究中的动词列表构建了一个生物医学动词词典。它们只使用398个动词来提取关系。因此,只有包含这些动词的句子才提取关系类型,而没有包含这些动词的句子只提取同现关系等简单关系,存在一定的局限性。

在本研究中,我们着重于寻找呈现关系类型的动词。如果能找到具有语言特征的生物医学动词,将为生物文献挖掘或生物自然语言处理提供很大的帮助。生物医学动词信息不仅可以提高检索的性能,而且可以提高句法或语义解析的性能。在我们的研究中,我们专注于构建一个可以理解从句子中提取的实体之间的关系的语言源。特别地,我们尝试根据关系类型的特点来构造动词列表。另外,我们为可用性提供了提取动词的名词形式。

本文的其余部分组织如下。在第二节中,我们讨论生物医学动词的定义。在第3节中,我们探讨了与生物医学动词列表相关的工作。然后,我们将在第4节描述构造生物医学动词列表的方法。我们在第5和第6节分析和讨论我们的生物医学动词列表的结果。在第7节,我们总结了论文,并建议未来的调查路线。

生物医学动词概念
生物医学动词和一般动词是很难区分的。许多研究并没有对生物医学动词进行界定,只是简单地研究了生物医学领域使用的动词。因此,在以往的研究中,一般动词如have、use、associate被列为生物医学动词,因为这些动词多用于生物医学领域。生物医学动词的定义是克服这一问题的必要条件。

在我们的研究中,我们将生物医学动词定义为在生物医学领域使用的动词,可以解释两个实体之间的关系。在生物文献挖掘领域,生物医学动词最重要的作用是呈现两个实体之间的关系类型。

一般动词可以表示两个实体之间的关系。调节、增加等动词可以表示两个共同领域的实体之间的关系,而x射线等生物医学专用动词则不能表示实体之间的关系,因此如图1所示,可以表示生物医学领域所有一般动词之间的关系,也可以表示生物医学领域特征的动词之间的关系,就被认为是生物医学动词。

相关工作
很难找到构建了生物医学动词列表的研究。在这一章,我们检查研究,可以确定生物医学动词列表。

Waxmonsky等使用了3个COPLUSE,是一般英语语料库(Newswire),Medline和包括p53(Medline sub set)的句子来提取动词并将其分组以进行比较。他们使用了一个叫做linguistica的程序,试图把相似的动词和它们的变体组合成一个。它们提供了16,601个从Pubmed中提取的动词及其变体,并按出现频率和百分比进行排名。

为了进行语义角色标注(SRL), Tsai等人使用了特定的动词。提取的30个动词均与分子事件有关,且在提及基因或蛋白质的句子中出现频率最高(不包括have、show、use等)。虽然他们在提取生物动词时考虑了实体之间的关系,但这并不能反映实际的相关性。

Rimell等人构造了一个包含次分类框架信息的动词资源,并对性能进行了比较。为了构建这个系统,他们提取了30个按标准频率出现频率较高的动词,并将它们用于比较。

大多数相关作品都没有动词来表示实体之间的关系。在Waxmonsky等人的研究中,他们没有应用动词的词素化,也没有对它们进行类型分类,因此,当他们根据频率标准查看排名靠前的动词时,动词如was, were, is, are和be的出现显示出改进是需要的。

在我们的研究中,我们对每个动词进行了词源化,并根据动词的特点进行了分类。另外,因为我们从一个句子中提取了可以显示两个实体之间关系的动词,所以我们的动词列表专门用于关系提取,这给了它的新颖性。

方法论
使用PKDE4J,我们提取生物医学动词。PKDE4J的基本假设是,主要动词左边的实体对主要动词右边的实体有影响。根据这一假设,我们可以将PKDE4J提取的主要动词视为可以显示两个实体之间关系的生物医学动词。

数据收集
文本收集
我们使用整个MEDLINE记录来提取主动词。截至2014年秋季,MEDLINE记录包括23,769,884篇文章,以XML格式存储。在这些记录中,我们使用SAX解析器提取了14,447,667条同时具有标题和抽象的记录。

字典数据
要通过使用PKDE4J提取主动词,我们必须设置可以作为关系主体的实体。因此,为了提取不同的生物医学动词,我们必须尽可能多地使用不同的实体。
在我们的研究中提取实体之间的关系,如表1所示,我们使用了10个实体,包括基因/蛋白质,细胞,细胞成分,分子功能,生物过程,身体部位,疾病,药物,组织和代谢物。

动词提取
PKDE4J的应用如下:首先,每篇论文的标题和摘要被分割成句子。一个句子由每个单词标记,通过使用构建的10个实体字典从句子中提取精确匹配的实体。提取出至少两个实体的句子用于提取主要动词。PKDE4J提取与已经提取的两个实体有依赖关系的主要动词,以及匹配Bio-Verb DB的主要动词。但是,在我们的研究中,我们删除了与主动词与生物动词DB相匹配的过程,并提取了所有主要动词。

我们从整个PubMed记录中提取了72,844个动词。表2显示了按频率标准提取的前20个主要动词。

最后,我们将动词分类为特定的类型。我们使用UMLS的语义关系作为分类标准。语义关系是UMLS语义网络中各语义类型之间的关系。

语义关系由层次关系和54种关系组成。我们可以发现难以区分的语义关系,如物理上相关、概念上相关、功能上相关、时间上相关、概念部分相关和空间上相关。因此,剔除这类关系后,共有48种语义关系作为分类类型的标准。表3显示了我们研究中使用的关系类型。

使用这些关系类型,我们对动词列表进行了分类。首先,我们使用JWNL在WordNet中搜索单词并提取同义词,在搜索关系类型后提取同义词,然后分类到互同义词最多的类型。使用JWPL在维基词典中搜索动词和关系类型后,计算相似度并分类到相似度最高的关系类型。采用的相似度公式为余弦相似度。

动词名词化
为了创建BioNLP和生物文献挖掘的语言来源,我们除了建立动词列表外,还包括名词形式。实体之间的关系不一定用动词表示。实体之间的关系不一定用动词表示。如果给每个动词加上名词形式和动名词形式,那么实体之间的关系不仅可以用动词来表示,而且还可以提取出名词形式或动名词形式的关系。

结果
我们已经构建了生物医学动词列表,并为每个词构建了关系类型。此外,通过为每个动词添加名词形式和动名词形式,我们使其作为语言来源成为可能。

我们共构建了4525个生物医学动词列表。这个列表可以有效地用于表示实体之间的关系。建立的文件示例如下。

讨论
在进行这项研究的过程中,我们能够发现“印刷错误”的讨论点。印刷错误可以通过两种方式进行检查。首先,它包含对相应词的英语和美国表达。如果“脱蛋白”和“脱蛋白”,这两个含有相同的内容,但同时在英语和美国表达中使用。如果添加了一个特定的表达式,则几乎不反映在关系提取中。这项研究收集并利用了所有这两种表达式。