第4章实体识别：CRF及LSTM+CRF

发呆的比目鱼

分类：学习笔记

发布时间 2023.10.30阅读数 731 评论数 0

第四章实体识别：CRF及LSTM+CRF

命名实体识别的发展历史

命名实体识别的任务

一般而言，主要是识别出待处理文本中七类（人名、机构名、地名、时间、日期、货币和百分比）命
名实体
两个任务：实体边界识别和实体类别标注(Entity Typing)

实体识别基本概念

实体识别的任务是识别出文本中三大类命名实体（实体类、时间类和数字类），具体如下所示：
- 实体识别
- 序列标

目前方法

基于机器学习的方法

生成式方法
原理：首先建立学习样本的生成模型，再利用模型对预测结果进行间接推理
典型算法： HMM等

判别式方法
原理：由字构词的命名实体识别理念，将NER问题转化为判别式分类问题(序列标注问题)
典型算法：Maxent，CRF

基于深度学习的方法

基于预训练的方法

BERT模型重新设计了语言模型预训练阶段的目标任务，提出了遮挡语言模型Masked LM和下一个句子预测（NSP）。

Masked LM是在输入的词序列中，随机选15%的词进行[MASK]，然后在这15%的词中，有80%的词被真正打上[MASK]标签，有10%的词被随机替换成任意词汇，10%的词不做任何处理。模型的任务是去正确预测带有MASK标签的词。相比于传统的语言模型，MaskedLM可以从前后两个方向预测这些带有MMASK标签的词。

NSP实质上是一个二分类任务，以50%的概率输入一个句子和下一个句子的拼接，标签属于正例：另外50%的概率输入一个句子和非下一个随机句子的拼接，对应标签为负例。

条件随机场（CRF）

定义：已知一组输入随机变量条件下，另一组输出随机变量的条件概率分布模型
特点：假设输出随机变量构成马尔可夫随机场
应用：可以应用于不同类型的标注问题，例如：

单个目标的标注、序列结构的标注、图结构的标注

CRF和HMM

HMM：生成式模型，难以考虑复杂的特征
CRF：判别式模型，可以考虑复杂的特征

基于CRF的命名实体识别

采用CRF模型对每个汉字标注对应实体类型的BIO标记
例如：句子“白居易是中国杰出的诗人”

观察序列： $白_1 居_2 易_3 是_4 中_5 国_6 杰_7 出_8 的_9 诗_{10} 人_{11}$
标注序列： $B−PER_1 I−PER_2 I−PER_3 O_4 O_5 O_6 O_7 O_8 O_9 O_{10} O_{11}$

特征函数：可以构建不同种类的特征

上下文特征，词性，词本身等

CRF示例

LSTM+CRF命名实体识别（Lample, NAACL16）

每个句子按照词序逐个输入双向LSTM中，结合正反向隐层输出得到每个词属于每个实体类别标签的概
率，输入CRF中，优化目标函数，从而得到每个词所属的实体类别

BiLSTM层输入与输出

BiLSTM层的输入：每个词的向量表示
BiLSTM层的输出：当前时刻的输入属于每个实体类别标签的概率

如果模型不包含CRF层

CRF层为模型效果提升带来了什么？
CRF层可以加入一些约束来保证最终预测结果是有效的。这些约束可以在训练数据时被CRF层自动学习得到。
可能的约束条件有：
（1）句子的开头应该是“B-”或“O”，而不是“I-”；
（2）“B-label1 I-label2 I-label3…”，在该模式中类别1,2,3应该是同一种实体类别。比如，“B-Person I-Person” 是正确的，而“B-Person I-Organization”则是错误的；
（3）“O I-label”是错误的，命名实体的开头应该是“B-”而不是“I-”。