[发明专利]一种实体关系联合抽取方法及装置在审
申请号: | 202010710243.X | 申请日: | 2020-07-22 |
公开(公告)号: | CN111832287A | 公开(公告)日: | 2020-10-27 |
发明(设计)人: | 陈权;牛伟才 | 申请(专利权)人: | 广东工业大学 |
主分类号: | G06F40/211 | 分类号: | G06F40/211;G06F40/295 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 黄忠 |
地址: | 510060 广东省*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 实体 关系 联合 抽取 方法 装置 | ||
本申请公开了一种实体关系联合抽取方法及装置,方法包括:采用预置Bilstm网络对字符嵌入矩阵进行特征提取,得到当前时间步的隐藏状态;对当前时间步的隐藏状态进行解码,得到初始主实体位置信息,并根据第一预置概率阈值对初始主实体位置信息进行标记操作,得到有效主实体位置信息;根据预置关系、有效主实体位置信息识别出初始客实体位置信息,并根据第二预置概率阈值对初始客实体位置信息进行标记操作,得到有效客实体位置信息;根据有效主实体位置信息、有效客实体位置信息和预置关系进行依赖建模,得到目标三元组。本申请解决了现有实体关系联合抽取技术在复杂语境下难以解决三元组重叠的技术问题。
技术领域
本申请涉及信息抽取技术领域,尤其涉及一种实体关系联合抽取方法及装置。
背景技术
随着全球一体化的持续推进,更好更快的发展海洋产业一直以来都是国家的首要战略目标。如今海洋产业已经演变为一个巨大的范畴,包含海洋渔业、海洋经济、海洋军事、海洋环保等等领域,各产业和产品数字信息未能实现产业贯通与联动利用,将极大的制约政府、企业科学决策以及海洋产业的发展,因此,对这些繁杂的海洋产业信息使用大数据分析、人工智能进行结构化的处理至关重要。构建大规模海洋产业语义知识库可以有效帮助用户进行行业智能问答和智能决策,这其中的重中之重便是实体与关系三元组的抽取。
传统的关系抽取方法大多是基于机器学习,需要人工定义词法和句法特征,如句法依赖树和词性标注等,往往需要大量的人力和财力。随着深度学习的发展,越来越多的基于神经网络的关系抽取算法出现。但是这些方法都存在着一个缺陷,即关系抽取任务是建立在实体识别技术之上的,这种垂直关联式的抽取方式会导致误差的累积。现有的实体和关系联合抽取的算法,将提取出来的句子特征在实体识别和关系抽取两个子任务上进行参数共享,很好的解决了实体和关系之间的依赖性。但是这种算法仍然面临着一个问题,即现实应用场景中的句子级文本通常包含多个三元组,这些联合抽取算法在复杂语境下不能很好的解决三元组重叠的问题。
发明内容
本申请提供了一种实体关系联合抽取方法及装置,用于解决现有实体关系联合抽取技术在复杂语境下难以解决三元组重叠的技术问题。
有鉴于此,本申请第一方面提供了一种实体关系联合抽取方法,包括:
采用预置Bilstm网络对字符嵌入矩阵进行特征提取,得到当前时间步的隐藏状态;
对所述当前时间步的隐藏状态进行解码,得到初始主实体位置信息,并根据第一预置概率阈值对所述初始主实体位置信息进行标记操作,得到有效主实体位置信息,所述有效主实体位置信息包括主实体开始位置和主实体结束位置;
根据预置关系、所述有效主实体位置信息识别出初始客实体位置信息,并根据第二预置概率阈值对所述初始客实体位置信息进行标记操作,得到有效客实体位置信息,所述有效客实体位置信息包括客实体开始位置和客实体结束位置;
根据所述有效主实体位置信息、所述有效客实体位置信息和所述预置关系进行依赖建模,得到目标三元组。
可选的,所述采用预置Bilstm网络对字符嵌入矩阵进行特征提取,得到当前时间步的隐藏状态,之前还包括:
将海量语料信息进行分句处理,得到句子文本;
对所述句子文本进行筛选操作,得到句子文本集;
对所述句子文本集中的每个句子进行字符级切分处理,得到每个句子的所有字符;
将每个字符转换为字符嵌入向量,得到每个句子的字符嵌入矩阵。
可选的,所述对所述当前时间步的隐藏状态进行解码,得到初始主实体位置信息,并根据第一预置概率阈值对所述初始主实体位置信息进行标记操作,得到有效主实体位置信息,之后还包括:
采用预置最大似然函数对标记后的所述有效主实体位置信息进行标记优化处理。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东工业大学,未经广东工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010710243.X/2.html,转载请声明来源钻瓜专利网。