首页在售求购查询申请展会资讯专利榜企服商城升级VIP

立即登录免费注册

在售专利
求购专利
查询专利
新闻资讯
技术展会
招商加盟
专利榜

本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247

本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247

[发明专利]一种阅读理解任务中是否类问题关键句寻找方法及系统在审

申请号：	202010330141.5	申请日：	2020-04-24
公开（公告）号：	CN111552773A	公开（公告）日：	2020-08-18
发明（设计）人：	许光銮;于泓峰;孙显;田雨;姚方龙;李沛光;吴红莉;刘那与	申请（专利权）人：	中国科学院空天信息创新研究院
主分类号：	G06F16/33	分类号：	G06F16/33;G06F40/30;G06F40/211;G06N3/04
代理公司：	北京安博达知识产权代理有限公司 11271	代理人：	徐国文
地址：	100190 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种阅读理解任务是否问题关键寻找方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种阅读理解任务中是否类问题关键句寻找方法，其特征在于，按照以下步骤进行：

选择已有的阅读理解问答数据，对所述问答数据进行预处理，得到数据集，然后将数据集分割为训练集、验证集和测试集；

基于构建的编码层网络，挖掘训练集和测试集里问句与篇章段落中的句子的语义信息，获得句子中每个词的词嵌入表示；

构建算法模型，将通过编码层网络挖掘后的问句与篇章段落利用神经网络模型以及TFIDF计算得到是否类问题的关键句；

将待阅读理解问答数据输入训练好的算法模型，对所述待阅读理解问答数据中的是否类问题的关键句进行预测。

2.如权利要求1所述的关键句寻找方法，其特征在于，对所述问答数据进行预处理包括：

对所述问答数据进行多尺度，多细粒度的小样本数据处理；

所述数据处理还包含对网页、网址、图片、脏乱文字的处理。

3.如权利要求1所述的关键句寻找方法，其特征在于，所述将数据集分割为训练集、验证集和测试集，包括：

对数据集进行基于相关语义理解的分割，随机选取80％个样本作为训练集；选择10％个样本划分为验证集；将和所述训练数据中剩余的10％个样本划分为测试集；

同时生成满足模型需要的词向量；

所述分割包含对原文章段落与问题校正后的数据分割。

4.如权利要求1所述的关键句寻找方法，其特征在于，所述将通过编码层网络挖掘后的问句与篇章段落利用神经网络模型以及TFIDF计算得到是否类问题的关键句，包括：

将通过编码层网络挖掘后的问句与篇章段落输入到神经网络进行训练；

同时对问句和篇章段落进行TFIDF计算；

将tf-idf的得到的每个词权重乘以神经网络的输出的每个句子的最终向量表示，后进行余弦相似度计算；

选择相似度最高的作为所述是否类问句的关键句。

5.如权利要求4所述的关键句寻找方法，其特征在于，所述将tf-idf的得到的每个词权重乘以神经网络的输出的每个句子的最终向量表示，包括：

将问句和篇章段落每个词的tf-idf权重与通过双向门控循环单元GRU网络对上下文特征进行学习，得到每个句子的最终向量表示。

6.如权利要求4所述的关键句寻找方法，其特征在于，所述词嵌入表示如下式：

w_i＝word2υec(t_i)

其中w_i为问句或文本中第i个词t_i的词嵌入表示，word2υec()为词嵌入公式。

7.如权利要求6所述的关键句寻找方法，其特征在于，所述通过双向门控循环单元GRU网络对上下文特征进行学习的计算式如下：

其中，GRU为门控循环单元网络，h_i为第i个词的门控循环单元网络输出的隐层向量，h_i-1为第i个词前一个词的门控循环单元网络输出的隐层向量，h_i+1为第i个词的门控循环单元网络输出的隐层向量，为正序向量，为逆序向量，“；”为拼接操作，w_i为问句或文本中第i个词t_i的词嵌入表示。

8.如权利要求7所述的关键句寻找方法，其特征在于，所述对问句和篇章段落进行TFIDF计算式如下：

tfidf(i，j)＝tf(i，j)×idf(i)

其中，tf(i，j)表示在文档j中单词i的词频，其中n_i，j表示文档j中单词i出现的次数，∑_kn_i,j为文档j中的单词总数，idf(i)则是由总文件数目D除以包含该单词i的文件的数目，t_i为该单词i；d_j为包含该单词的文件j；再将得到的商进行取对数得到。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中国科学院空天信息创新研究院，未经中国科学院空天信息创新研究院许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202010330141.5/1.html，转载请声明来源钻瓜专利网。

上一篇：一种变电站用复合式低压减载系统
下一篇：基于分布式hbase存储的海量遥感数据组织管理方法及系统

同类专利

专利分类

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

友情链接：交换友情链接需要网站权重大于4，网站收录10W以上，如符合条件，请联系QQ：。

关于我们寻求报道投稿须知广告合作版权声明网站地图友情链接企业标识联系我们

在线咨询

周一至周五 9:00-18:00

版权所有http://www.vipzhuanli.com/公布日期

咨询在线客服

咨询在线客服

tel code back_top