[发明专利]一种实体关系联合抽取方法及装置在审
申请号: | 202010710243.X | 申请日: | 2020-07-22 |
公开(公告)号: | CN111832287A | 公开(公告)日: | 2020-10-27 |
发明(设计)人: | 陈权;牛伟才 | 申请(专利权)人: | 广东工业大学 |
主分类号: | G06F40/211 | 分类号: | G06F40/211;G06F40/295 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 黄忠 |
地址: | 510060 广东省*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 实体 关系 联合 抽取 方法 装置 | ||
1.一种实体关系联合抽取方法,其特征在于,包括:
采用预置Bilstm网络对字符嵌入矩阵进行特征提取,得到当前时间步的隐藏状态;
对所述当前时间步的隐藏状态进行解码,得到初始主实体位置信息,并根据第一预置概率阈值对所述初始主实体位置信息进行标记操作,得到有效主实体位置信息,所述有效主实体位置信息包括主实体开始位置和主实体结束位置;
根据预置关系、所述有效主实体位置信息识别出初始客实体位置信息,并根据第二预置概率阈值对所述初始客实体位置信息进行标记操作,得到有效客实体位置信息,所述有效客实体位置信息包括客实体开始位置和客实体结束位置;
根据所述有效主实体位置信息、所述有效客实体位置信息和所述预置关系进行依赖建模,得到目标三元组。
2.根据权利要求1所述的实体关系联合抽取方法,其特征在于,所述采用预置Bilstm网络对字符嵌入矩阵进行特征提取,得到当前时间步的隐藏状态,之前还包括:
将海量语料信息进行分句处理,得到句子文本;
对所述句子文本进行筛选操作,得到句子文本集;
对所述句子文本集中的每个句子进行字符级切分处理,得到每个句子的所有字符;
将每个字符转换为字符嵌入向量,得到每个句子的字符嵌入矩阵。
3.根据权利要求1所述的实体关系联合抽取方法,其特征在于,所述对所述当前时间步的隐藏状态进行解码,得到初始主实体位置信息,并根据第一预置概率阈值对所述初始主实体位置信息进行标记操作,得到有效主实体位置信息,之后还包括:
采用预置最大似然函数对标记后的所述有效主实体位置信息进行标记优化处理。
4.根据权利要求1所述的实体关系联合抽取方法,其特征在于,所述根据所述有效主实体位置信息、所述有效客实体位置信息和所述预置关系进行依赖建模,得到目标三元组,还包括:
将预置主实体类型和预置客实体类型引入所述依赖建模的过程中,得到优化后的目标三元组。
5.根据权利要求1所述的实体关系联合抽取方法,其特征在于,所述根据所述有效主实体位置信息、所述有效客实体位置信息和所述预置关系进行依赖建模,得到目标三元组,之后还包括:
将所述目标三元组导入图数据库neo4j中进行存储。
6.一种实体关系联合抽取装置,其特征在于,包括:
特征提取模块,用于采用预置Bilstm网络对字符嵌入矩阵进行特征提取,得到当前时间步的隐藏状态;
解码标记模块,用于对所述当前时间步的隐藏状态进行解码,得到初始主实体位置信息,并根据第一预置概率阈值对所述初始主实体位置信息进行标记操作,得到有效主实体位置信息,所述有效主实体位置信息包括主实体开始位置和主实体结束位置;
识别标记模块,用于根据预置关系、所述有效主实体位置信息识别出初始客实体位置信息,并根据第二预置概率阈值对所述初始客实体位置信息进行标记操作,得到有效客实体位置信息,所述有效客实体位置信息包括客实体开始位置和客实体结束位置;
三元组构建模块,用于根据所述有效主实体位置信息、所述有效客实体位置信息和所述预置关系进行依赖建模,得到目标三元组。
7.根据权利要求6所述的实体关系联合抽取装置,其特征在于,还包括:
预处理模块,用于将海量语料信息进行分句处理,得到句子文本;
对所述句子文本进行筛选操作,得到句子文本集;
对所述句子文本集中的每个句子进行字符级切分处理,得到每个句子的所有字符;
将每个字符转换为字符嵌入向量,得到每个句子的字符嵌入矩阵。
8.根据权利要求6所述的实体关系联合抽取装置,其特征在于,还包括:
第一优化模块,用于采用预置最大似然函数对标记后的所述有效主实体位置信息进行标记优化处理。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东工业大学,未经广东工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010710243.X/1.html,转载请声明来源钻瓜专利网。