[发明专利]目标语句提取方法、问题生成方法以及信息处理设备有效
申请号: | 201810827532.0 | 申请日: | 2018-07-25 |
公开(公告)号: | CN110852110B | 公开(公告)日: | 2023-08-04 |
发明(设计)人: | 张姝;孟遥 | 申请(专利权)人: | 富士通株式会社 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F16/35 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 陈炜;王伟楠 |
地址: | 日本神*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 目标 语句 提取 方法 问题 生成 以及 信息处理 设备 | ||
提供了目标语句提取方法、问题生成方法以及信息处理设备。目标语句提取方法包括:通过将待处理文档中的每个词用词向量表示,构建第一语义序列;利用深度学习模型对第一语义序列进行处理,以获得第二语义序列,第二语义序列的每个元素与第一语义序列中的每个词向量对应并且体现了与该词向量有关的上下文信息;基于待处理文档中的各个词在预先获得的文档和语句对数据库中的匹配结果,分别对第二语义序列中的各个元素进行加权处理;利用序列标注模型对加权处理后的第二语义序列进行标注,并基于标注结果获取待处理文档中的目标语句,其中,深度学习模型和序列标注模型是利用标记好的训练文档和训练语句而预先训练获得的。
技术领域
本公开总体上涉及信息服务领域,具体而言,涉及一种从待处理文档中提取目标语句的目标语句提取方法、基于待处理文档生成问题的问题生成方法、以及能够实现目标语句提取和/或问题生成的功能的信息处理设备。
背景技术
在信息服务领域,如何高效、准确地从待处理文档中提取感兴趣的信息一直是得到广泛关注的问题。
现有的提取感兴趣信息的方式之一是信息检索,其根据用户查询,返回从相关文档中获取的检索结果。由于一般用户的查询关键词不一定准确或完备,可能需要人工查看每一个文档的具体内容,找出相关的有用信息。这样做不但费时费力,而且很容易由于不正确的查询导致返回文档的不正确,或者由于不仔细地阅读导致忽略了一个相关的信息条目。
因此,需要提供一种改进的从待处理文档中提取感兴趣信息的方法。
发明内容
在下文中给出了关于本发明的简要概述,以便提供关于本发明的某些方面的基本理解。应当理解,这个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关键或重要部分,也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念,以此作为稍后论述的更详细描述的前序。
鉴于对现有的信息服务进行改进的需求,本发明的目的之一是提供一种从待处理文档中提取目标语句的方法,其能够从待处理文档中自动提取作为关注信息(诸如潜在问题的回答)的目标语句。
根据本公开的第一方面,提供了一种目标语句提取方法,用于从待处理文档中提取目标语句。该方法包括:通过将待处理文档中的每个词用词向量表示,构建待处理文档的第一语义序列;利用深度学习模型对第一语义序列进行处理,以获得第二语义序列,其中,第二语义序列的每个元素与第一语义序列中的每个词向量对应,并且体现了与该词向量有关的上下文信息;基于待处理文档中的各个词在预先获得的文档和语句对数据库中的匹配结果,分别对第二语义序列中的各个元素进行加权处理;以及利用序列标注模型对加权处理后的第二语义序列进行标注,并基于标注结果获取待处理文档中的目标语句,其中,深度学习模型和序列标注模型是利用标记好的训练文档和训练语句而预先训练获得的。
根据本公开的第二方面,提供了一种问题生成方法,用于基于待处理文档生成问题。该方法包括:利用本公开的第一方面的一种问题生成方法从待处理文档中提取出目标语句作为回答,并将其转换为由词向量表示的回答语义序列;利用编码模型对回答语义序列进行处理,以获得编码语义序列,编码语义序列的每个元素与回答语义序列中的每个词向量对应,并且体现了与该词向量有关的上下文信息;基于所提取的目标语句中的各个词在预先获得的问题和回答对数据库中的匹配结果,分别对编码语义序列中的各个元素进行加权处理;以及利用解码模型对加权处理后的编码语义序列进行处理,以获得解码语义序列,作为与所提取的目标语句对应的问题,其中,解码语义序列中的当前元素是解码模型基于加权处理后的编码语义序列以及解码语义序列中的前一元素进行处理而获得的,其中,编码模型和解码模型是利用标记好的训练回答和训练问题而预先训练获得的、基于深度学习的模型。
依据本公开的再一方面,还提供了一种信息处理设备,其包括处理器,该处理器被配置为执行本公开第一方面的目标语句提取方法。
替选地,本公开还可以提供一种信息处理设备,其包括处理器,该处理可以被配置为执行本公开第二方面的问题生成方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于富士通株式会社,未经富士通株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810827532.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于对抗训练机制的多语言实体关系抽取方法及系统
- 下一篇:新型计算机鼠标