[发明专利]一种基于长难句化简的电力专利文本实体关系抽取方法在审
申请号: | 202110286509.7 | 申请日: | 2021-03-17 |
公开(公告)号: | CN112966502A | 公开(公告)日: | 2021-06-15 |
发明(设计)人: | 杨政;赵之晗;尹春林 | 申请(专利权)人: | 云南电网有限责任公司电力科学研究院 |
主分类号: | G06F40/284 | 分类号: | G06F40/284;G06F40/216;G06F40/126;G06F16/28;G06N3/04 |
代理公司: | 北京弘权知识产权代理有限公司 11363 | 代理人: | 逯长明;许伟群 |
地址: | 650217 云南省昆*** | 国省代码: | 云南;53 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 长难句化简 电力 专利 文本 实体 关系 抽取 方法 | ||
1.一种基于长难句化简的电力专利文本实体关系抽取方法,其特征在于,
S01:将电力专利文本的正文构造数据训练集与测试集按比例划分,再将其与常用词汇表以及电力术语词汇表一并输入到语句化简模块;
S02:对于输入的电力专利文本的正文构造数据训练集与测试集,根据常用词汇表以及电力术语词汇表,语句化简模块进行文本的长难句化简,将长难句转化为一系列的简单句;
S03:将化简后的简单句输入双向GRU神经网络模型进行关系抽取,得到实体间关系;
S04:使用基于规则的关系抽取算法进行信息元组抽取所述实体间关系进一步确定实体属性信息。
2.根据权利要求1所述的基于长难句化简的电力专利文本实体关系抽取方法,其特征在于,所述根据常用词汇表以及电力术语词汇表,语句化简模块进行文本的长难句化简,将长难句转化为一系列的简单句,包括以下步骤:
将常用词汇表与电力术语词汇表结合起来构成组合词汇表,构造所述组合词汇表对训练集和测试集中的词进行编号;
将所述组合词汇表输入词向量模型中生成词向量,将生成的词向量输入到基于Bi-LSTM的编码器-解码器模型里,所述词向量模型与所述基于Bi-LSTM的编码器-解码器模型组合成的基本模型进行化简。
3.根据权利要求2所述的基于长难句化简的电力专利文本实体关系抽取方法,其特征在于,将所述组合词汇表输入词向量模型中生成词向量,将生成的词向量输入到基于Bi-LSTM的编码器-解码器模型里,所述词向量模型与所述基于Bi-LSTM的编码器-解码器模型组合成的基本模型进行化简,包括:
首先,编码器对输入的词序列{x1,x2,…,xn}进行编码,每个词有对应的序号后,通过词向量模型获取对应的词向量;
然后,将词序列对应的词向量序列依次输给递归神经网络(双层Bi-LSTM网络),获取对应的输出和隐藏状态;
其次,解码器由LSTM网络和注意力机制层组成,解码器对所述输出和隐藏状态进行解码;
最后,预测器包括全连接层和LogSoftmax层,对解码器解码的每一步输出,预测器输出词汇表中每个词作为输出序列下一个词的对数概率,直至结束化简过程。
4.根据权利要求2所述的基于长难句化简的电力专利文本实体关系抽取方法,其特征在于,构造所述组合词汇表对训练集和测试集中的词进行编号中,为了限制词汇表的规模,出现的词按词频降序排序后保留前N个谓词,余下的统一编为特定序号,表示未知词。
5.根据权利要求1所述的基于长难句化简的电力专利文本实体关系抽取方法,其特征在于,所述双向GRU神经网络模型的表达式如下:
zt=σ(wzxt+uzht-1+bz)
rt=σ(wrxt+urht-1+br)
其中,zt和rt分别为GRU的更新门和重置门,更新门是控制上一时刻的状态信息传递到当前时刻的程度,重置门是控制上一时刻的状态信息被遗忘的程度;Wz,Wr,Wh和Uz,Ur,Uh分别为神经元当前时刻的输入权重和循环输入的权重,bz,br,bh为偏置向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于云南电网有限责任公司电力科学研究院,未经云南电网有限责任公司电力科学研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110286509.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种乳腺癌术后康复运动辅助装置
- 下一篇:一种用于预制装配式建筑的单撑装置