命名实体识别(英语:Named Entity Recognition),简称NER,是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等,以及时间、数量、货币、比例数值等文字。
举个例子,假如有这么一句话:
ACM宣布,深度学习的三位创造者Yoshua Bengio, Yann LeCun, 以及Geoffrey Hinton获得了2019年的图灵奖。
那么NER的任务就是从这句话中提取出
- 机构名:ACM
- 人名:Yoshua Bengio, Yann LeCun,Geoffrey Hinton
- 时间:2019年
- 专有名词:图灵奖
标签类型的定义一般如下:
定义 | 全称 | 备注 |
---|---|---|
B | Begin | 实体片段的开始 |
I | Intermediate | 实体片段的中间 |
E | End | 实体片段的结束 |
S | Single | 单个字的实体 |
O | Other/Outside | 其他不属于任何实体的字符(包括标点等) |
将每个元素标注为“B-X”、“I-X”或者“O”。其中,“B-X”表示此元素所在的片段属于X类型并且此元素在此片段的开头,“I-X”表示此元素所在的片段属于X类型并且此元素在此片段的中间位置,“O”表示不属于任何类型。
命名实体识别中每个token对应的标签集合如下:
LabelSet = {O, B-PER, I-PER, B-LOC, I-LOC, B-ORG, I-ORG}
BIOES标注模式就是在BIO的基础上增加了单字符实体和字符实体的结束标识, 即
LabelSet = {O, B-PER, I-PER, E-PER, S-PER, B-LOC, I-LOC, E-LOC, S-LOC, B-ORG, I-ORG, E-ORG, S-ORG}
- CLUENER2020
- MSRA
- 人民网
- 微博命名实体识别数据集
- BosonNLP NER数据
- 影视-音乐-书籍实体标注数据
- 中文医学文本命名实体识别
- 电子简历实体识别数据集
- 医渡云实体识别数据集
- 简历实体数据集
- CoNLL-2003
- Few-NERD 细粒度数据集
- Hanlp 官网:http://hanlp.linrunsoft.com/
- bert4keras 苏剑林大神维护的开源工具,提供了包括实体识别,关系抽取,文本分类,文本生成等一系列nlp任务的实现