[发明专利]基于检索的机器阅读理解系统的实现方法及装置在审

专利信息
申请号: 201910808954.8 申请日: 2019-08-29
公开(公告)号: CN112445887A 公开(公告)日: 2021-03-05
发明(设计)人: 严德美;周小多;程龚;瞿裕忠 申请(专利权)人: 南京大学
主分类号: G06F16/31 分类号: G06F16/31;G06F16/332;G06F16/335;G06N3/08
代理公司: 南京天翼专利代理有限责任公司 32112 代理人: 奚铭
地址: 210023 江苏*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 检索 机器 阅读 理解 系统 实现 方法 装置
【说明书】:

基于检索的机器阅读理解系统的实现方法及装置,包括文本初步检索模块、检索结果重排序模块和机器阅读理解模块,文本初步检索模块被配置为事先构造领域文档集合,提取文档集合特征,将用户提出的问题和领域文档集合中的文档计算相似度,返回相似度最高的前x个文档给检索结果重排序模块,检索结果重排序模块根据所得x个文档与问题重新计算相关性,并将相关性最高的文档传导至机器阅读理解模块,机器阅读理解模块根据问题从最相关的文档中抽取出问题对应的答案。本发明针对用户的问题找到最相关的文档,将得到的文档和用户的问题交给机器阅读理解模型,最终得到问题对应的答案,构成了一个基于检索的机器阅读理解系统,提高问题类搜索的效率。

技术领域

本发明属于计算机技术领域,涉及文本检索和自然语言的机器阅读理解,为一种基于检索的机器阅读理解系统。

技术背景

随着科技的发展,信息的高效和快速的获取对人们来说越来越重要,当用户在网络搜索问题的答案时,现有的搜索引擎不仅仅返回一个检索文档的列表,而是同时会阅读和理解这些互联网文档并且高亮显示最有可能的答案在检索结果的前列。如何利用文本检索和机器阅读理解技术来帮助用户查找到满意的答案,是自然语言处理和信息检索技术研究领域中的一个经典课题。文本检索作为信息检索的一个子领域,让机器具备从海量的互联网文本中检索出用户所需的相关文本;机器阅读理解作为自然语言理解的一个子领域,让机器具备自然语言的阅读理解与问答能力,一直是学术界和工业界关注的热点问题,也是目前智能语音和人机交互的核心难题。机器阅读理解(Machine ReadingComprehension)是让机器像人类一样通过阅读自然语言文本,然后经过推理总结,从而能够精准地回答和阅读内容相关的问题。

机器阅读理解方法分为两类:分别为生成式和抽取式。生成式是从理论上来说不受知识的局限,对于问题自动生成答案,但是生成式有时生成的答案和用户的问题没关系,语法和句式上存在很大错误,不能很好地体现出人类的思维逻辑以及自然表述的特点。抽取式通过给定问题以及相关的文章进行训练,让机器具备阅读理解的能力,并对测试集中的新问题,在相关文章中抽取出相应的答案。相对于生成式来说,抽取式的技术优势更加明显,应用更为广泛。

近年来机器阅读理解的进步主要归功于:大规模以篇章、问题、答案三元组形式的监督数据集的构建,以及深度神经阅读理解模型的发展。传统的方法大多是基于规则的词袋方法加上一些语言学上的处理,例如词干、语义类别识别和指代消解,这种方法的代表是DEEP READ系统;或者是手动地基于词汇和语义对应生成一些规则,这种方法的代表是QUARC系统。在2013年到2015年期间,研究者们创建了以篇章、问题、答案三元组形式的人工标注的阅读理解数据集并且将阅读理解问题形式化为一个监督学习的问题,他们希望能够训练一个统计学模型将篇章,问题对映射到对应的答案。自斯坦福机器阅读理解数据集SQuAD问世以来,经过谷歌、斯坦福大学、艾伦研究院、微软、腾讯、百度、科大讯飞等在内的众多研究机构的不懈努力,形成了机器阅读理解的pipleline,即“词嵌入,语义编码,语义交互,答案边界预测”这样一套四层机器阅读理解模型体系,这种体系的代表方法有BIDAF,Match-LSTM,R-net,QANet等。该体系主要思想是:首先将问题和篇章中的每个词映射到高维语义空间,其次将问题和篇章分别进行编码,以获得关于上下文的信息,接着将问题的编码和篇章的编码进行融合使得机器学习到语义交互信息,然后根据语义交互信息生成边界开始位置和边界结束位置的概率分布,分别取最大概率值对应的边界起始位置,由边界起始位置从文章中抽取出答案片段。

现在,通过搜索引擎来搜索问题,会返回问题相关的网页,用户需要点击网页进行浏览,查找自己需要的答案。然而有时候问题答案对应的网页可能会排得靠后并且用户需要阅读长长的网页内容才能找到答案,这个过程很耗时,如果搜索引擎能够针对用户的问题,准确为用户返回问题对应的答案,这将会极大的节省用户宝贵的时间,提高搜索效率,并且带来良好的用户体验。

发明内容

本发明要解决的问题是:现有技术中,搜索引擎的反馈为一系列网页文档,不能直接返回答案,针对问题搜索答案的效率不高。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京大学,未经南京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910808954.8/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top