[发明专利]基于深度学习的实体关系抽取方法、装置及服务器有效
申请号: | 201711178693.3 | 申请日: | 2017-11-23 |
公开(公告)号: | CN107798136B | 公开(公告)日: | 2020-12-01 |
发明(设计)人: | 李双婕;史亚冰;梁海金;张扬;李京峰 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F16/33 |
代理公司: | 北京市铸成律师事务所 11313 | 代理人: | 王珺;徐瑞红 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 深度 学习 实体 关系 抽取 方法 装置 服务器 | ||
1.一种基于深度学习的实体关系抽取方法,其特征在于,所述方法包括:
对待挖掘文本进行预处理,以获取所述待挖掘文本中包含有实体和关系的句子;
先获取所述句子中存在的实体对组合,然后获取与所述实体对组合可能对应的候选关系;以及
从所述可能对应的候选关系中确定与所述实体对组合对应的候选关系,
其中所述获取所述句子中存在的实体对组合,包括:
圈定所述句子中所有的候选实体对组合;
根据所述所有的候选实体对组合,确定可能存在关系的实体对组合,并且
所述获取与所述实体对组合可能对应的候选关系,包括:
圈定所述句子中存在的关系,以确定与所述可能存在关系的实体对组合可能对应的候选关系。
2.根据权利要求1所述的方法,其特征在于,对待挖掘文本进行预处理,包括:
对所述待挖掘文本进行分句;
然后对分句后得到的句子进行词法和句法分析,以识别句子中的实体,获得所述包含有实体的关系的句子。
3.根据权利要求1所述的方法,其特征在于,圈定所述句子中所有的候选实体对组合,包括:
识别所述句子中包含的所有实体;
对所述实体进行两个有序排列,以形成可能的候选实体对组合。
4.根据权利要求1所述的方法,其特征在于,确定可能存在关系的实体对组合,包括:
根据过滤条件筛选可能的候选实体对组合,得到所述可能存在关系的实体对组合;
其中所述过滤条件是根据所述候选实体对组合在依存树上的距离、所述候选实体对组合是否为所在句子中的名词词组的核心词以及所述候选实体对组合的词性确定的。
5.根据权利要求1所述的方法,其特征在于,圈定所述句子中存在的关系,以确定与所述可能存在关系的实体对组合可能对应的候选关系,包括:
抽取关系树下所有的名词和动词。
6.根据权利要求1所述的方法,其特征在于,从所述可能对应的候选关系中确定与所述实体对组合对应的候选关系,包括:
根据实体关系判别模型判别实体对组合和其可能对应的候选关系,获得输出结果为正例的关系;
计算每个关系的置信度,根据所述置信度确定与所述可能存在关系的实体对组合对应的候选关系。
7.一种基于深度学习的实体关系抽取装置,其特征在于,包括:
预处理模块,配置为对待挖掘文本进行预处理,以获取所述待挖掘文本中包含有实体和关系的句子;
获取模块,配置为先获取所述句子中存在的实体对组合,然后获取与所述实体对组合可能对应的候选关系;
第一处理模块,配置为从所述可能对应的候选关系中确定与所述实体对组合对应的候选关系;
其中所述获取模块,包括:
第一圈定模块,配置为圈定所述句子中所有的候选实体对组合;
第二处理模块,配置为根据所述所有的候选实体对组合,确定可能存在关系的实体对组合;
第二圈定模块,配置为圈定所述句子中存在的关系,以确定与所述可能存在关系的实体对组合可能对应的候选关系。
8.根据权利要求7所述的装置,其特征在于,所述预处理模块,包括:
分句模块,配置为对所述待挖掘文本进行分句;
分析模块,配置为然后对分句后得到的句子进行词法和句法分析,以识别句子中的实体,获得所述包含有实体的关系的句子。
9.根据权利要求7所述的装置,其特征在于,所述第一处理模块,包括:
判别模块,配置为根据实体关系判别模型判别实体对组合和其可能对应的候选关系,获得输出结果为正例的关系;
第四处理模块,配置为计算每个关系的置信度,从而确定与所述可能存在关系的实体对组合对应的候选关系。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711178693.3/1.html,转载请声明来源钻瓜专利网。