[发明专利]基于条件随机场的命名实体识别方法在审
申请号: | 202110274547.0 | 申请日: | 2021-03-15 |
公开(公告)号: | CN113065349A | 公开(公告)日: | 2021-07-02 |
发明(设计)人: | 刘义江;李云超;姜琳琳;吴彦巧;姜敬;檀小亚;师孜晗;陈蕾;侯栋梁;池建昆;范辉;阎鹏飞;魏明磊;辛锐;陈曦;杨青;沈静文 | 申请(专利权)人: | 国网河北省电力有限公司;国网河北省电力有限公司雄安新区供电公司 |
主分类号: | G06F40/284 | 分类号: | G06F40/284;G06F40/295;G06F40/30;G06N3/04 |
代理公司: | 石家庄新世纪专利商标事务所有限公司 13100 | 代理人: | 董金国;黄敬霞 |
地址: | 050022 *** | 国省代码: | 河北;13 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 条件 随机 命名 实体 识别 方法 | ||
1.一种基于条件随机场的命名实体识别方法,由处理器执行程序指令实现,该方法包括:
接收包含中文文本的词语序列;所述词语序列中各词语按照其在原始语句的上下文顺序排列;
使用命名实体识别网络的词向量模块将所述词语序列编码为词向量组;所述词向量组包含了各个词语的命名实体特征信息;
使用命名实体识别网络的长短记忆网络模块提取所述词向量组中各个词向量的序列特征,并输出为命名实体分类空间的状态分数矩阵;
使用命名实体识别网络的条件随机场模块查找所述状态分数矩阵中得分最高的分数路径作为所述词语序列中各词语的命名实体预测结果输出。
2.根据权利要求1所述的命名实体识别方法,其特征在于,对所述命名实体识别网络的训练包括:对所述词向量模块的训练;以及,对所述长短记忆网络模块和所述条件随机场模块的同时训练。
3.根据权利要求2所述的命名实体识别方法,其特征在于,对所述词向量模块的训练包括:使用one-hot编码的词库对所述词向量模块的神经网络进行基于预设命名实体分类的编码训练;使用语料库语句中连续固定长度的词语序列对所述词向量的神经网络进行基于判断所述词语序列中以词语是否相邻词语是否的编码训练。
4.根据权利要求3所述的命名实体识别方法,其特征在于,所述词语序列的固定长度为3。
5.根据权利要求4所述的命名实体识别方法,其特征在于,对所述词向量模块进行基于判断所述词语序列中以词语是否相邻词语是否的编码训练,损失L配置为由基于分类任务的交叉熵损失函数计算:
其中,y代表真实值,代表预测值,两者取值范围都是{0,1}。
6.根据权利要求2所述的命名实体识别方法,其特征在于,对所述长短记忆网络模块和所述条件随机场模块的同时训练包括:使用由所述词向量模块输出的词向量组做为样本进行训练。
7.根据权利要求1至6任一项所述的命名实体识别方法,其特征在于,由长短记忆网络模块对所述词向量组的各个词向量进行基于上下文信息的分类打分,以获得各个词向量的分类向量;将所述分类向量组合为状态分数矩阵。
8.根据权利要求1至6任一项所述的命名实体识别方法,其特征在于,所述条件随机场模块配置为使用其转移矩阵将所述状态分数矩阵中各分类向量解码为包含全部分类路径的状态分数矩阵,并选择各个路径中得分和最大的路径为输出。
9.根据权利要求6所述的命名实体识别方法,其特征在于,所述长短记忆网络模块和所述条件随机场模块进行训练时,整体神经网络的损失函数Loss被设计为:
其中,P1,P2,…,Pn为根据在条件随机向量场计算得到各个路径,假设Preal-path为其中最大路径。
10.根据权利要求1所述的命名实体识别方法,其特征在于,所述命名实体特征信息的分类维度配置为PER、ORG、LOC和O四个维度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国网河北省电力有限公司;国网河北省电力有限公司雄安新区供电公司,未经国网河北省电力有限公司;国网河北省电力有限公司雄安新区供电公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110274547.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:图片发送方法、装置和电子设备
- 下一篇:基于书写运动学理论的笔迹鉴别方法