[发明专利]电力计量的命名实体识别方法、装置和计算机设备在审
申请号: | 202110837584.8 | 申请日: | 2021-07-23 |
公开(公告)号: | CN113591479A | 公开(公告)日: | 2021-11-02 |
发明(设计)人: | 梁洪浩;伍少成;姜和芳;陈晓伟 | 申请(专利权)人: | 深圳供电局有限公司 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/284;G06F16/36;G06N3/04 |
代理公司: | 广州华进联合专利商标代理有限公司 44224 | 代理人: | 周清华 |
地址: | 518021 广东省深圳市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 电力 计量 命名 实体 识别 方法 装置 计算机 设备 | ||
本申请涉及一种电力计量的命名实体识别方法、装置、计算机设备和存储介质,所述方法包括:获取用于描述电力计量信息的待识别语料中多个词语各自对应的词向量;将多个词向量输入到训练好的编码器,通过所述编码器获取每个词向量对应的高斯分布的分布特征;基于多个词向量对应的分布特征,生成词向量特征;将所述词向量特征输入到预设的条件随机场,根据所述条件随机场输出的标注结果,确定所述待识别语料中的命名实体。在本实施例中,通过获取词向量对应高斯分布的分布特征,可以准确识别出相似词向量之间的差别,由此判断出两个相似词向量是否为同一词向量,有效提高电力计量的命名实体识别准确率。
技术领域
本申请涉及命名实体识别技术领域,特别是涉及一种电力计量的命名实体识别方法、装置、计算机设备和存储介质。
背景技术
随着知识图谱的日益普及,人们对知识图谱的需求越来越大。针对电力计量知识图谱,构建前往往需要从电力计量文本中准确识别并提取电力计量的命名实体。在传统技术中,深度学习模型在电力计量中得到了广泛的应用,例如通过长短时记忆神经网络(LSTM)、卷积神经网络等识别电力计量的命名实体。
然而,在中文的电力计量报告中,大量电力计量命名实体的名称较为相似,而传统的命名实体识别方法无法对其进行准确识别,导致电力计量命名实体的识别准确率低。
发明内容
基于此,有必要针对上述技术问题,提供一种电力计量的命名实体识别方法、装置、计算机设备和存储介质。
一种电力计量的命名实体识别方法,所述方法包括:
获取用于描述电力计量信息的待识别语料中多个词语各自对应的词向量;
将多个词向量输入到训练好的编码器,通过所述编码器获取每个词向量对应的高斯分布的分布特征;
基于多个词向量对应的分布特征,生成词向量特征;
将所述词向量特征输入到预设的条件随机场,根据所述条件随机场输出的标注结果,确定所述待识别语料中的命名实体。
在其中一个实施例中,所述基于多个词向量对应的分布特征,生成词向量特征,包括:
对多个词向量对应的分布特征进行组合,生成第一参考特征集合和第二参考特征集合;所述第一参考特征集合中的每个元素为一词向量;所述第二参考特征集合中的每个元素为相邻的词向量对;
将所述第一参考特征集合和第二参考特征集合输入到训练好的双向长短时记忆网络,通过所述双向长短时记忆网络获取所述第一参考特征集合对应的独立特征和所述第二参考集合对应的关联性特征;
对所述独立特征和所述关联性特征进行特征融合,得到词向量特征。
在其中一个实施例中,所述对多个词向量对应的分布特征进行组合,生成第二参考特征集合,包括:
确定多个分布特征对应的排列顺序;所述排列顺序与待识别语料中各个词语的排列顺序对应;
根据所述排列顺序,获取多组相邻的分布特征,得到多组分布特征对;
采用多组分布特征对生成第二参考特征集合。
在其中一个实施例中,还包括:
获取预先构建的电力计量语料库;所述电力计量语料库包括多条用于描述电力计量信息的语料;
采用预设的分词模型对电力计量语料库中的语料进行分词,得到多个用于描述电力计量信息的词语;
基于得到的多个词语对初始化的词向量模型进行训练,得到训练好的词向量模型,所述训练好的词向量模型用于获取电力计量语料中词语对应的词向量。
在其中一个实施例中,还包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳供电局有限公司,未经深圳供电局有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110837584.8/2.html,转载请声明来源钻瓜专利网。