[发明专利]生成段落集的方法和装置、推理方法和装置在审
申请号: | 202010518041.5 | 申请日: | 2020-06-09 |
公开(公告)号: | CN113779203A | 公开(公告)日: | 2021-12-10 |
发明(设计)人: | 李长亮;姬子明;唐剑波 | 申请(专利权)人: | 北京金山数字娱乐科技有限公司 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/33;G06F16/338;G06N5/04 |
代理公司: | 北京智信禾专利代理有限公司 11637 | 代理人: | 王治东 |
地址: | 100085 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 生成 段落 方法 装置 推理 | ||
本申请实施例提供了生成段落集的方法和装置、推理方法和装置、计算设备以及计算机可读存储介质,以能够从大量的文本数据中高效、准确且全面地获取与问题的内容足够相关的证据内容,避免丢失有价值的信息,为后续的答案预测提供优质的数据基础,以提高后续答案预测时的推理过程的准确性和效率。该生成段落集的方法包括:从文档数据库中得到与问题相关的文档集;基于文档集构建段落图,其中,段落图包括多个段落层级,段落层级包括来自文档集的多个段落,段落层级中的段落与下一层段落层级中的至少一个段落的内容相关;获取段落图中的所有段落,以生成段落集。
技术领域
本申请涉及计算机技术领域,特别涉及生成段落集的方法和装置、推理方法和装置、计算设备以及计算机可读存储介质。
背景技术
句子关系判断是自然语言处理领域中的四大类任务之一,其中包含了阅读理解问答。在真实场景中,许多问题的答案分布在多个文本里面,且有时候产生答案的文本与问题之间有很少的(或者没有)重叠词汇。因此,许多任务需要通过分散在多个文本片段中的证据进行推理,同时在进行推理之前,需要处理的文本通常比较长,如果处理不好可能会丢失很多有价值的信息,从而影响推断效果。
对于一个问答系统输入查询问题,机器可能很容易在一个文本中找出答案。但很多情况下答案可能隐藏在一堆文本中,此时即使人类都需要经过严密的推理和分析才能得到正确答案。由此可见,亟需一种证据提取方式和推理方式,以能够从大量的文本数据中高效、准确且全面地获取与问题的内容足够相关的证据内容,避免丢失有价值的信息,为后续的答案预测提供优质的数据基础,以提高后续答案预测时的推理过程的准确性和效率。
发明内容
有鉴于此,本申请实施例提供了生成段落集的方法和装置、推理方法和装置、计算设备以及计算机可读存储介质,以解决现有技术中存在的技术缺陷。
本申请实施例公开了生成段落集的方法,包括:从文档数据库中得到与问题相关的文档集;基于文档集构建段落图,其中,段落图包括多个段落层级,段落层级包括来自文档集的多个段落,段落层级中的段落与下一层段落层级中的至少一个段落的内容相关;获取段落图中的所有段落,以生成段落集。
本申请实施例公开了推理方法,包括:基于如前所述的生成段落集的方法获取段落集;对段落集进行筛选,得到与问题的内容相关的多个候选段落,并基于多个候选段落生成初始候选段落集;计算初始候选段落集中每个候选段落对应的推理路径,其中,推理路径包括对应的候选段落,以及与对应的候选段落相关的至少一个其他候选段落;对多个推理路径进行路径评分,并将路径评分最高的推理路径最为最佳路径;将最佳路径输入答案预测模型,以获取答案区间。
本申请实施例公开了生成段落集的装置,包括:筛选模块,被配置为从文档数据库中得到与问题相关的文档集;段落图构建模块,被配置为基于文档集构建段落图,其中,段落图包括多个段落层级,段落层级包括来自文档集的多个段落,段落层级中的段落与下一层段落层级中的至少一个段落的内容相关;段落集获取模块,被配置为获取段落图中的所有段落,以生成段落集。
本申请实施例公开了推理装置,包括:段落集生成模块,被配置为基于如前所述的生成段落集的方法获取段落集;候选段落集生成模块,被配置为对段落集进行筛选,得到与问题的内容相关的多个候选段落,并基于多个候选段落生成初始候选段落集;推理路径获取模块,被配置为计算初始候选段落集中每个候选段落对应的推理路径,其中,推理路径包括对应的候选段落,以及与对应的候选段落相关的至少一个其他候选段落;路径评分模块,被配置为对多个推理路径进行路径评分,并将路径评分最高的推理路径最为最佳路径;答案预测模块,被配置为将最佳路径输入答案预测模型,以获取答案区间。
本申请实施例公开了计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,其特征在于,处理器执行指令时实现如前任意生成段落集的方法或推理方法的步骤。
本申请实施例公开了计算机可读存储介质,其存储有计算机指令,其特征在于,该指令被处理器执行时实现如前任意生成段落集的方法或推理方法的步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京金山数字娱乐科技有限公司,未经北京金山数字娱乐科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010518041.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:指示方法及设备
- 下一篇:可控硅检测控制电路和LED调光模组