[发明专利]基于阅读理解的中文命名实体识别方法在审
申请号: | 202010720804.4 | 申请日: | 2020-07-24 |
公开(公告)号: | CN112101027A | 公开(公告)日: | 2020-12-18 |
发明(设计)人: | 余正涛;刘奕洋;高盛祥;郭军军;张亚飞;毛存礼 | 申请(专利权)人: | 昆明理工大学 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/289;G06F40/30;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 昆明人从众知识产权代理有限公司 53204 | 代理人: | 何娇 |
地址: | 650093 云南省昆明*** | 国省代码: | 云南;53 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 阅读 理解 中文 命名 实体 识别 方法 | ||
1.基于阅读理解的中文命名实体识别方法,其特征在于,包括如下步骤:
Step1、对文档级语料进行分字处理,得到文档级序列;
Step2、将检索标签问题、文档级序列实体及文档级序列进行拼接,得到由检索标签问题、文档级序列实体及文档级序列构成的三元组;
Step3、将三元组中的检索标签问题与文档级序列作为输入,经过BERT编码层生成融入文档级上下文信息的隐藏输出;
Step4、将融入文档级上下文信息的隐藏输出经过卷积神经网络,获取长距离上下文的语义特征,捕获整个文档上下文的语义信息,将语义信息压缩到特征映射中;
Step5、利用整个文档上下文的语义信息通过预测层对文档中所有实体进行预测,预测实体的起始索引和终止索引,将其拼接从而生成命名实体。
2.根据权利要求1所述的基于阅读理解的中文命名实体识别方法,其特征在于:
所述步骤Step2的具体步骤为:
Step2.1、对文档级语料进行分字处理后得到了文档级序列X=(x1,x2,x3,......xn),其中n表示序列的长度,在文档级序列中抽取实体,然后为每个实体加上类别标签y,均表示为xstart,end的形式,假设该文档级序列的所有实体类别标签集合为Y,那么每个实体对应的类别标签y∈Y;
Step2.2、检索标签问题构建:利用“标注说明”构建每个类别标签的检索标签问题,所谓“标注说明”,是就是对这个类别标签进行解释;
Step2.3、将带类别标签的文档级序列转换为三元组(Question,Answer,Context),其中,Question就是检索标签问题qy,Context就是文档级序列X,而Answer就是所有文档级序列实体,带类别标签的实体xstart,end={xstart,xstart+1,......,xend-1,xend}是文档级序列X满足类别标签y的子序列集合,其中,使用下标“start,end”来表示序列中从索引“开始”到索引“结束”的连续元素,与类别标签y∈Y相关联;
通过基于类别标签y生成自然语言检索标签问题qy,获得三元组(qy,xstart,end,X),即三元组(Question,Answer,Context)。
3.根据权利要求1所述的基于阅读理解的中文命名实体识别方法,其特征在于:
在所述Step3中,将三元组中的检索标签问题与文档级序列作为输入,经过BERT编码层时,当检索标签问题与文档级序列的序列长度大于512字节时,直接截断,把截断的部分作为新样本处理循环执行Step2-Step3。
4.根据权利要求1所述的基于阅读理解的中文命名实体识别方法,其特征在于:
所述Step4.1中,将融入文档级上下文信息的隐藏输出输入CNN卷积神经网络的卷积层来获取长距离上下文语义特征,对上下文语义特征施加最大池化操作,能得到大小固定且与输入相互独立的全局特征向量。
5.根据权利要求1所述的基于阅读理解的中文命名实体识别方法,其特征在于:
所述Step5中,预测层是使用两个二进制分类器,一个用于预测每个类别标签是否为起始索引,另一个用于预测每个类别标签是否为终止索引。
6.根据权利要求1所述的基于阅读理解的中文命名实体识别方法,其特征在于:
所述步骤Step5的具体步骤为:
Step5.1、将上下文特征提取层输出表示进行处理,只保留文本信息,得到表示矩阵E′CNN;
Step5.2、然后在预测层通过两个二进制分类器,预测命名实体的起始索引和终止索引;预测层首先预测每个实体类别标签成为起始索引、终止索引的概率,其中,预测层首先预测每个实体类别标签成为起始索引的概率如下所示:
是学习的参数,d表示是BERT编码层最后一层的向量维度,N表示文档级序列的长度,Pstart的每一行意味着每个索引的概率分布是给定检索标签问题的实体的起始位置或终止位置;
Step5.3、利用预测到的每个实体类别标签成为起始索引、终止索引的概率预测起始索引、终止索引,再将预测的起始索引与其对应的终止索引进行匹配拼接从而生成命名实体。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于昆明理工大学,未经昆明理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010720804.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种熔体泵壳体的销钉孔加工工艺
- 下一篇:一种锥形薄壁零件的铣加工工装