[发明专利]一种阅读理解任务中是否类问题关键句寻找方法及系统在审
申请号: | 202010330141.5 | 申请日: | 2020-04-24 |
公开(公告)号: | CN111552773A | 公开(公告)日: | 2020-08-18 |
发明(设计)人: | 许光銮;于泓峰;孙显;田雨;姚方龙;李沛光;吴红莉;刘那与 | 申请(专利权)人: | 中国科学院空天信息创新研究院 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F40/30;G06F40/211;G06N3/04 |
代理公司: | 北京安博达知识产权代理有限公司 11271 | 代理人: | 徐国文 |
地址: | 100190 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 阅读 理解 任务 是否 问题 关键 寻找 方法 系统 | ||
本发明提供的阅读理解任务中是否类问题关键句寻找方法及系统,包括:选择已有的阅读理解问答数据,对问答数据进行预处理,得到数据集,然后基于编码层网络,挖掘数据集中问句与篇章段落中的句子的语义信息,获得每个词的词嵌入表示;并构建算法模型,将通过编码层网络挖掘后的问句与篇章段落利用神经网络模型以及TFIDF计算得到是否类问题的关键句;将待阅读理解问答数据输入训练好的算法模型,对是否类问题的关键句进行预测。本发明可以提供更多的关键句支撑,通过双向门控循环网络与TF‑IDF结合来计算关键句的权重,提高是否类问题的回答效率与准确率。
技术领域
本发明属于处理自然语言数据技术领域,具体涉及一种阅读理解任务中是否类问题关键句寻找方法及系统。
背景技术
随着网络信息的爆炸式的增长,各种信息充斥着整个网络环境。人们现在已经习惯于去网络上搜寻一些解决问题的方法。当用户并不是十分熟悉一些搜索技巧的时候,他们往往需要花费很多的时间去筛选搜索引擎返回的结果。阅读理解系统的诞生有效的解决了前面提到的信息烦杂的问题。阅读理解系统采用自然语言处理的方法将用户提交的问题进行分析,获取相关答案然后返回给用户。
是否类问题关键句的寻找,一直是阅读理解任务中一个关键的问题。如何找到问题的关键句,是回答该问题的一个关键点。也是评价这个阅读理解系统是否优秀的一个重点。是否类问题关键句的寻找是一项集自然语言处理与自然语言理解于一体的项目。如何的在没有人参与的情况下机器自动的正确的找到是否类问题关键句,如何正确的回答该关键句是目前阅读理解研究者共同面对的难题。如果能正确的解决以上问题,阅读理解问答系统将会被应用到生活的各个方面。同时,我们发现由于当前阅读理解问答系统由于缺少相关问句的支持,也使得阅读理解问答系统的内容过于单一,不适合当前人们的需求。同时在查找与问题相关的关键句时正确率过低,导致模型在回答问题时,无法找到与问题匹配的关键信息,而且传统方法的可扩展性差。
发明内容
为了解决现有的传统规则的方法的在查找与问题相关的关键句时正确率过低,导致模型在回答问题时,无法找到与问题匹配的关键信息,而且传统方法的可扩展性差,解决关键句查询领域的局限。为此,本发明提出了一种阅读理解任务中是否类问题关键句寻找方法,包括:
选择已有的阅读理解问答数据,对所述问答数据进行预处理,得到数据集,然后将数据集分割为训练集、验证集和测试集;
基于构建的编码层网络,挖掘练集和测试集里问句与篇章段落中的句子的语义信息,获得句子中每个词的词嵌入表示;
构建算法模型,将通过编码层网络挖掘后的问句与篇章段落利用神经网络模型以及TFIDF计算得到是否类问题的关键句;
将待阅读理解问答数据输入训练好的算法模型,对所述待阅读理解问答数据中的是否类问题的关键句进行预测。
优选的,对所述问答数据进行预处理包括:
对所述问答数据进行多尺度,多细粒度的小样本数据处理;
所述数据处理还包含对网页、网址、图片、脏乱文字的处理。
优选的,所述将数据集分割为训练集、验证集和测试集,包括:
对数据集进行基于相关语义理解的分割,随机选取80%个样本作为训练集;选择10%个样本划分为验证集;将和所述训练数据中剩余的10%个样本划分为测试集;
同时生成满足模型需要的词向量;
所述分割包含对原文章段落与问题校正后的数据分割。
优选的,所述将通过编码层网络挖掘后的问句与篇章段落利用神经网络模型以及TFIDF计算得到是否类问题的关键句,包括:
将通过编码层网络挖掘后的问句与篇章段落输入到神经网络进行训练;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院空天信息创新研究院,未经中国科学院空天信息创新研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010330141.5/2.html,转载请声明来源钻瓜专利网。