[发明专利]语义关系的抽取方法、装置、设备及存储介质在审
申请号: | 201811507886.3 | 申请日: | 2018-12-11 |
公开(公告)号: | CN109783797A | 公开(公告)日: | 2019-05-21 |
发明(设计)人: | 潘禄;陈玉光;彭卫华;罗雨;陈亮;陈文浩;周辉;郑宇宏;陈伟娜;韩翠云 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 北京同立钧成知识产权代理有限公司 11205 | 代理人: | 朱颖;刘芳 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 候选关系 语义关系 抽取 存储介质 文本 查找 实际关系 信息源 证据 申请 | ||
本申请实施例提供一种语义关系的抽取方法、装置、设备及存储介质,通过从文本中抽取获得实体间的多个候选关系;针对每个候选关系,从信息源中查找包括所述实体间的所述候选关系的文本证据;基于查找获得的各候选关系对应的文本证据的数量,从所述多个候选关系中确定出所述实体间的实际关系。本申请实施例提供的技术方案,能够提高语义关系抽取的可靠性。
技术领域
本申请实施例涉及人工智能技术领域,尤其涉及一种语义关系的抽取方法、装置、设备及存储介质。
背景技术
随着互联网的快速普及,网络信息呈爆炸式增长,采用信息抽取技术从文本中自动抽取结构化信息可以极大地提升人们获取信息的效率。关系抽取旨在基于文本的上下文信息从文本中抽取实体间的语义关系,是信息抽取的主要任务之一。
然而,在文本中,由于一些特定关系的上下文信息严重不足,导致在关系分类时容易产生歧义,进而影响关系抽取的可靠性。
发明内容
本申请实施例提供一种语义关系的抽取方法、装置、设备及存储介质,用以提高语义关系抽取的可靠性,避免上下文信息缺失对语义关系抽取造成影响。
本申请实施例第一方面提供一种语义关系的抽取方法,包括:从文本中抽取获得实体间的多个候选关系;针对每个候选关系,从信息源中查找包括所述实体间的所述候选关系的文本证据;基于查找获得的各候选关系对应的文本证据的数量,从所述多个候选关系中确定出所述实体间的实际关系。
本申请实施例第二方面提供一种语义关系抽取装置,包括:抽取模块,用于从文本中抽取获得实体间的多个候选关系;证据查找模块,用于针对每个候选关系,从信息源中查找包括所述实体间的所述候选关系的文本证据;确定模块,用于基于查找获得的各候选关系对应的文本证据的数量,从所述多个候选关系中确定出所述实体间的实际关系。
本申请实施例第三方面提供一种计算机设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器执行如上述第一方面所述的方法。
本申请实施例第四方面提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时执行如上述第一方面所述的方法。
基于以上各方面,本申请实施例通过从文本中抽取获得实体间的多个候选关系,针对每个候选关系,从信息源中查找包括该候选关系的文本证据,从而基于查找获得的各候选关系对应的文本证据的数量,从该些候选关系中确定出实体间的实际关系。由于本申请实施例在抽取获得实体间的各种候选关系后,还需要进一步从信息源中查找用于支持各种候选关系的证据,并根据证据的获取情况来最终判断实体间的实际关系,因而即使在文本中缺少实体间的上下文信息,也能够根据搜集到的证据准确判断实体间的实际关系,而不会因为上下文信息缺失对关系提取造成影响,提升了语义关系抽取的可靠性。
应当理解,上述发明内容部分中所描述的内容并非旨在限定本申请的实施例的关键或重要特征,亦非用于限制本申请的范围。本公申请的其它特征将通过以下的描述变得容易理解。
附图说明
图1是本申请实施例提供的一种语义关系的抽取方法的流程图;
图2是本申请实施例提供的一种抽取场景示意图;
图3是本申请实施例提供的一种步骤S12的执行方法流程图;
图4是本申请实施例提供的一种MDP模型的结构示意图;
图5是本申请实施例提供的一种语义关系抽取装置的结构示意图;
图6是本申请实施例提供的一种证据查找模块52的结构示意图。
具体实施方式
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811507886.3/2.html,转载请声明来源钻瓜专利网。