[发明专利]语义关系的抽取方法、装置、设备及存储介质在审
申请号: | 201811507886.3 | 申请日: | 2018-12-11 |
公开(公告)号: | CN109783797A | 公开(公告)日: | 2019-05-21 |
发明(设计)人: | 潘禄;陈玉光;彭卫华;罗雨;陈亮;陈文浩;周辉;郑宇宏;陈伟娜;韩翠云 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 北京同立钧成知识产权代理有限公司 11205 | 代理人: | 朱颖;刘芳 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 候选关系 语义关系 抽取 存储介质 文本 查找 实际关系 信息源 证据 申请 | ||
1.一种语义关系的抽取方法,其特征在于,包括:
从文本中抽取获得实体间的多个候选关系;
针对每个候选关系,从信息源中查找包括所述实体间的所述候选关系的文本证据;
基于查找获得的各候选关系对应的文本证据的数量,从所述多个候选关系中确定出所述实体间的实际关系。
2.根据权利要求1所述的方法,其特征在于,所述针对每个候选关系,从信息源中查找包括所述实体间的所述候选关系的文本证据,包括:
针对每个候选关系所属的关系类型,构建所述实体间符合所述关系类型的关系式;
基于各候选关系对应的所述关系式,从信息源中查找各候选关系对应的文本证据。
3.根据权利要求2所述的方法,其特征在于,所述基于各候选关系对应的所述关系式,从信息源中查找各候选关系对应的文本证据,包括:
记录并判断基于当前关系式的查找次数;
若当前关系式的查找次数达到预设次数,则在下一次查找操作中基于另一关系式查找文本证据;
若当前关系式的查找次数未达到预设次数,则在下一次查找操作中继续基于当前关系式查找文本证据。
4.根据权利要求2所述的方法,其特征在于,所述基于各候选关系对应的所述关系式,从信息源中查找各候选关系对应的文本证据,包括:
判断本次查找操作获取到的文本证据的数量是否低于预设数量;
若本次查找操作获取到的文本证据的数量高于预设数量,则在下一次查找操作中继续基于当前关系式查找文本证据;
若本次查找操作获取到的文本证据的数量低于预设数量,则在下一次查找操作中基于另一关系式查找文本证据。
5.根据权利要求2所述的方法,其特征在于,所述基于各候选关系对应的所述关系式,从信息源中查找各候选关系对应的文本证据,包括:
根据当前关系式的查找次数和查找到的文本证据的数量,采用预设的马尔可夫决策MDP模型,确定下一次查找操作所对应的关系式或者结束所有查找操作。
6.根据权利要求5所述的方法,其特征在于,所述根据当前关系式的查找次数和查找到的文本证据的数量,采用预设的马尔可夫决策MDP模型,确定下一次查找操作所对应的关系式或者结束所有查找操作,包括:
根据本次查找操作获取到的文本证据的数量在本次查找结果中所占据的比例,确定本次查找操作对当前所对应的候选关系的置信度的提升量;
根据当前关系式的查找次数和所述提升量,采用预设的马尔可夫决策MDP模型,确定下一次查找操作所对应的关系式或者结束所有查找操作。
7.根据权利要求1所述的方法,其特征在于,所述基于查找获得的各候选关系对应的文本证据的数量,从所述多个候选关系中确定出所述实体间的实际关系,包括:
根据查找到的各候选关系对应的文本证据的数量在所有文本证据中占据的比例,确定各候选关系的置信度,将所述多个候选关系中置信度最高的确定为所述实体间的实际关系。
8.一种语义关系抽取装置,其特征在于,包括:
抽取模块,用于从文本中抽取获得实体间的多个候选关系;
证据查找模块,用于针对每个候选关系,从信息源中查找包括所述实体间的所述候选关系的文本证据;
确定模块,用于基于查找获得的各候选关系对应的文本证据的数量,从所述多个候选关系中确定出所述实体间的实际关系。
9.根据权利要求8所述的装置,其特征在于,所述证据查找模块,包括:
关系式构建子模块,用于针对每个候选关系所属的关系类型,构建所述实体间符合所述关系类型的关系式;
证据查找子模块,用于基于各候选关系对应的所述关系式,从信息源中查找各候选关系对应的文本证据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811507886.3/1.html,转载请声明来源钻瓜专利网。