[发明专利]用于从知识库进行自动问题生成的系统和方法有效
申请号: | 201780069055.X | 申请日: | 2017-09-07 |
公开(公告)号: | CN110023929B | 公开(公告)日: | 2023-09-12 |
发明(设计)人: | 冯哲;L.宋;L.赵 | 申请(专利权)人: | 罗伯特·博世有限公司 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/36;G06F40/186;G06F40/56 |
代理公司: | 中国专利代理(香港)有限公司 72001 | 代理人: | 刘书航;申屠伟进 |
地址: | 德国斯*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 知识库 进行 自动 问题 生成 系统 方法 | ||
一种从包括多个语句的知识库生成问题数据集的方法,所述方法包括:基于所述多个语句中的所选择的语句的结构生成至少一个问题模板;利用处理器基于所述至少一个问题模板生成针对每个所选择的语句的种子问题;通过经搜索引擎处理种子问题中的每个来利用搜索引擎生成至少一个第一扩展问题;以及将所述至少一个第一扩展问题和种子问题中的至少一个存储在存储器中作为问题数据集。
技术领域
本公开涉及信息系统的领域并且特别地涉及从知识库数据进行自然语言处理、问题生成、以及问题回答。
背景技术
问题生成和回答是计算机科学中的学科,其专注于构建能够为自然语言问题提供自然语言回答的电子数据系统。例如,数据系统可以被配置为利用“一加仑中有八品脱。”的自然语言回答自动地回答自然语言问题:“一加仑中有多少品脱”。在上面的示例中,问题和回答这两者都以人类说话者会用来提问和回答问题的格式呈现,由此使得回答是容易地由提出问题的人可理解的。
在准备用于自然语言问题回答的数据系统当中,生成自然语言问题和回答的数据库。该处理被称为数据采集。数据采集典型地涉及机器学习方法并且要求一定数量的任务相关的数据以用于训练和测试目的。常见的数据采集解决方案是手动地采集数据。例如,众包(crowdsource)是用以经由许多人的在线合作来手动地采集数据的典型方式。然而,众包是耗时的并且如果采集数据的人不是有关主题方面的专家,则有时难以得到具有良好质量的数据。此外,每次想要有导向至不同主题(即,不同域)的数据系统时,就要采集附加的数据并且必须再次生成问题和回答。更进一步地,数据系统的问题和回答典型地被限制于特定的格式、句法和组织。
问题和回答数据系统具有简化人类与电子机器的交互的潜力。然而,用于构建问题和回答数据系统的已知的方法和系统是劳动密集的并且耗时的。至少出于这些原因,想要有在问题和回答数据系统领域中的进一步的发展。
发明内容
根据本公开的示例性实施例,一种从包括多个语句的知识库生成问题数据集的方法包括:基于多个语句中的所选择的语句的结构生成至少一个问题模板;利用处理器基于至少一个问题模板生成针对每个所选择的语句的种子问题;通过经搜索引擎处理种子问题中的每个来利用搜索引擎生成至少一个第一扩展问题;以及将至少一个第一扩展问题和种子问题中的至少一个存储在第一存储器中作为问题数据集。
根据本公开的另一个示例性实施例,用于从具有多个语句的知识库生成问题数据集的问题生成系统包括存储器和远程计算机。远程计算机可操作地连接于知识库和存储器。远程计算机包括被配置为如下的处理器:标识多个语句中的至少一个所选择的语句;使用基于至少一个所选择的语句的结构的至少一个问题模板生成针对每个所选择的语句的种子问题;利用可操作地连接于远程计算机的搜索引擎来从种子问题中的每个中生成至少一个第一扩展问题;以及将至少一个第一扩展问题和种子问题中的至少一个存储在存储器中作为问题数据集。
附图说明
通过参照以下详细的描述和随附各图,在上面描述的特征和优点以及其它特征和优点对于那些本领域普通技术人员而言应当变得更容易地显见,其中:
图1是问题生成和回答系统的框图,所述系统包括用于生成问题数据集的远程计算机和被配置为与远程计算机对接的客户机设备;
图2是来自示例性知识库的语句的绘图,所述示例性知识库由远程计算机使用以生成问题数据集;
图3是描绘生成问题数据集的示例性方法的流程图;以及
图4是图示使用搜索引擎的示例性问题扩展处理的示图。
具体实施方式
出于促进对本公开的原理的理解的目的,现在将参照在附图中图示并且在以下的书面说明中描述的实施例。理解的是,不由此意图限制于本公开的范围。进一步理解的是,本公开包括对图示的实施例的任何替换和修改,并且包括本公开的原理的如本公开所涉及领域的技术人员通常会想到的进一步的应用。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于罗伯特·博世有限公司,未经罗伯特·博世有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201780069055.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:预测搜索引擎排名信号值
- 下一篇:利用神经网络和在线学习的语言数据预测