[发明专利]基于知识图谱的阅读理解数据集自动生成方法和设备有效
申请号: | 202010991922.9 | 申请日: | 2020-09-21 |
公开(公告)号: | CN111831812B | 公开(公告)日: | 2020-12-15 |
发明(设计)人: | 赵撼宇;袁莎;唐杰;谢年韬;马全跃;曹岗 | 申请(专利权)人: | 北京智源人工智能研究院 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/33;G06F16/36 |
代理公司: | 北京动力号知识产权代理有限公司 11775 | 代理人: | 梁艳;白婉露 |
地址: | 100083 北京市海淀区中关村南大街1号北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 知识 图谱 阅读 理解 数据 自动 生成 方法 设备 | ||
本发明公开了一种基于知识图谱的阅读理解数据集自动生成方法和设备。该方法包括:提取给定的问题中的实例和/或关系;在预先生成的概念知识图谱中获取所述实例对应的候选实例和/或候选关系,并利用所述候选实例和/或候选关系替换所述给定的问题中的所述实例和/或关系,生成新的问题;若从所述概念知识图谱中能够获取所述新的问题的答案,则从其他数据源获取所述新的问题中的实例对应的文章片段;利用所述新的问题及其答案和所述文章片段生成阅读理解数据集。本发明能够基于概念知识图谱自动生成阅读理解数据集,节约了人力成本;构建得到的阅读理解数据集更加复杂且对推理能力要求更高。
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种基于知识图谱的阅读理解数据集自动生成方法和设备。
背景技术
自然语言处理任务包括词性标注、句法分析、阅读理解等。其中,词性标注、句法分析任务更多地聚焦于小范围层面(例如一个句子内)的上下文信息;阅读理解任务更多地聚焦于更大范围、更深层次的上下文语义信息的分析处理。而更大范围、更深层次的上下文语义信息在理解文本的过程中起着非常重要的作用,更加有助于完成自然语言处理目标:计算机能够阅读、处理文本,并且理解文本的内在含义。所以,阅读理解任务是自然语言处理任务中最热门的研究方向之一。由于阅读理解的相关研究工作都需要建立在大规模、高质量的数据集之上,所以,要进行阅读理解的相关研究,必须首先建立大规模、高质量的阅读理解数据集。
目前,阅读理解数据集的构建大多是采用单纯人工标注或人工标注结合算法进行迭代的方法,但是这些方法都存在不足之处:一,需要事先定义全量的问题和文章片段,人力物力的耗费量大;二,运用算法来标注阅读理解数据集,虽然具有节省人力的效果,但是由于算法精确度有限,仍需要大量的人工审核,因此对人力成本的节省有限;三,针对特定领域构建阅读理解数据集,要求标注者具备相关的领域知识,因此,对标注者的要求更高,从而进一步增加了数据标注的成本;四,人为标注的阅读理解数据集,大多相对简单,基本不涉及较为复杂的推理问题,无法有效促进相关研究,而且人为设计推理问题有时也会由于标注者主观知识的影响存在一定不合理性。
发明内容
本发明为了解决现有技术中的不足和缺陷,提出了如下技术方案。
本发明一方面提供了一种基于知识图谱的阅读理解数据集的自动生成方法,包括:
提取给定的问题中的实例和/或关系;
在预先生成的概念知识图谱中获取所述实例对应的候选实例和/或候选关系,并利用所述候选实例和/或候选关系替换所述给定的问题中的所述实例和/或关系,生成新的问题;
若从所述概念知识图谱中能够获取所述新的问题的答案,则从其他数据源获取所述新的问题中的实例对应的文章片段;
利用所述新的问题及其答案和所述文章片段生成阅读理解数据集。
优选地,还包括:
在预先生成的概念知识图谱中获取所述候选实例对应的候选关系,并利用所述候选实例和所述候选实例对应的候选关系替换所述给定的问题中的所述实例和关系,生成新的问题。
优选地,所述在预先生成的概念知识图谱中获取所述实例对应的候选实例,包括:
在所述概念知识图谱中定位所述实例;
获取与所述实例属于同一概念下的其他实例作为候选实例。
优选地,所述获取与所述实例属于同一概念下的其他实例作为候选实例,包括:
在所述概念知识图谱中,依据instanceOf关系获取所述实例对应的上一层概念,并获取所述上一层概念下的其他实例作为候选实例;
和/或,
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京智源人工智能研究院,未经北京智源人工智能研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010991922.9/2.html,转载请声明来源钻瓜专利网。