[发明专利]一种阅读理解任务中是否类问题关键句寻找方法及系统在审
申请号: | 202010330141.5 | 申请日: | 2020-04-24 |
公开(公告)号: | CN111552773A | 公开(公告)日: | 2020-08-18 |
发明(设计)人: | 许光銮;于泓峰;孙显;田雨;姚方龙;李沛光;吴红莉;刘那与 | 申请(专利权)人: | 中国科学院空天信息创新研究院 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F40/30;G06F40/211;G06N3/04 |
代理公司: | 北京安博达知识产权代理有限公司 11271 | 代理人: | 徐国文 |
地址: | 100190 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 阅读 理解 任务 是否 问题 关键 寻找 方法 系统 | ||
1.一种阅读理解任务中是否类问题关键句寻找方法,其特征在于,按照以下步骤进行:
选择已有的阅读理解问答数据,对所述问答数据进行预处理,得到数据集,然后将数据集分割为训练集、验证集和测试集;
基于构建的编码层网络,挖掘训练集和测试集里问句与篇章段落中的句子的语义信息,获得句子中每个词的词嵌入表示;
构建算法模型,将通过编码层网络挖掘后的问句与篇章段落利用神经网络模型以及TFIDF计算得到是否类问题的关键句;
将待阅读理解问答数据输入训练好的算法模型,对所述待阅读理解问答数据中的是否类问题的关键句进行预测。
2.如权利要求1所述的关键句寻找方法,其特征在于,对所述问答数据进行预处理包括:
对所述问答数据进行多尺度,多细粒度的小样本数据处理;
所述数据处理还包含对网页、网址、图片、脏乱文字的处理。
3.如权利要求1所述的关键句寻找方法,其特征在于,所述将数据集分割为训练集、验证集和测试集,包括:
对数据集进行基于相关语义理解的分割,随机选取80%个样本作为训练集;选择10%个样本划分为验证集;将和所述训练数据中剩余的10%个样本划分为测试集;
同时生成满足模型需要的词向量;
所述分割包含对原文章段落与问题校正后的数据分割。
4.如权利要求1所述的关键句寻找方法,其特征在于,所述将通过编码层网络挖掘后的问句与篇章段落利用神经网络模型以及TFIDF计算得到是否类问题的关键句,包括:
将通过编码层网络挖掘后的问句与篇章段落输入到神经网络进行训练;
同时对问句和篇章段落进行TFIDF计算;
将tf-idf的得到的每个词权重乘以神经网络的输出的每个句子的最终向量表示,后进行余弦相似度计算;
选择相似度最高的作为所述是否类问句的关键句。
5.如权利要求4所述的关键句寻找方法,其特征在于,所述将tf-idf的得到的每个词权重乘以神经网络的输出的每个句子的最终向量表示,包括:
将问句和篇章段落每个词的tf-idf权重与通过双向门控循环单元GRU网络对上下文特征进行学习,得到每个句子的最终向量表示。
6.如权利要求4所述的关键句寻找方法,其特征在于,所述词嵌入表示如下式:
wi=word2υec(ti)
其中wi为问句或文本中第i个词ti的词嵌入表示,word2υec()为词嵌入公式。
7.如权利要求6所述的关键句寻找方法,其特征在于,所述通过双向门控循环单元GRU网络对上下文特征进行学习的计算式如下:
其中,GRU为门控循环单元网络,hi为第i个词的门控循环单元网络输出的隐层向量,hi-1为第i个词前一个词的门控循环单元网络输出的隐层向量,hi+1为第i个词的门控循环单元网络输出的隐层向量,为正序向量,为逆序向量,“;”为拼接操作,wi为问句或文本中第i个词ti的词嵌入表示。
8.如权利要求7所述的关键句寻找方法,其特征在于,所述对问句和篇章段落进行TFIDF计算式如下:
tfidf(i,j)=tf(i,j)×idf(i)
其中,tf(i,j)表示在文档j中单词i的词频,其中ni,j表示文档j中单词i出现的次数,∑kni,j为文档j中的单词总数,idf(i)则是由总文件数目D除以包含该单词i的文件的数目,ti为该单词i;dj为包含该单词的文件j;再将得到的商进行取对数得到。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院空天信息创新研究院,未经中国科学院空天信息创新研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010330141.5/1.html,转载请声明来源钻瓜专利网。