[发明专利]抽取式机器智能阅读理解问答系统有效
申请号: | 202010250183.8 | 申请日: | 2020-04-01 |
公开(公告)号: | CN111611361B | 公开(公告)日: | 2022-06-14 |
发明(设计)人: | 潘磊;代翔;黄细凤;杨露 | 申请(专利权)人: | 西南电子技术研究所(中国电子科技集团公司第十研究所) |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/33;G06F40/30;G06N3/04;G06N3/08 |
代理公司: | 成飞(集团)公司专利中心 51121 | 代理人: | 郭纯武 |
地址: | 610036 四川*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 抽取 机器 智能 阅读 理解 问答 系统 | ||
1.一种抽取式机器智能阅读理解问答系统,包括:文本特征提取模块,相连文档库的文档检索模块、相连阅读理解模型的阅读理解模块、答案合并预测模块和模型优化模块,其特征在于:模型优化模块通过已标注文档集实现阅读理解模型的训练与优化,为问答系统提供更好的阅读理解模型;文档检索模块针对文档库中的海量文本文档,构建全文本搜索引擎ES检索和语义检索两级文档检索体系,实现与查询问题匹配文档的粗筛选和精筛选,完成关联文档的缩减与排序,基于用户问题输入,采用ES检索技术实现海量文档的粗检索,形成问答查询的初步文档集,采用语义检索技术实现问题与文档的进一步匹配,形成问答查询的最终文档集;阅读理解模块通过阅读理解预训练模型提取问题与文档深层语义特征,按人工设定规则提取问题与文档的结构特征,结合语义特征和结构特征,完成问题与文档的联合特征表示,进而利用多层神经网络模型对答案是否存在于文档中进行预测,判断文档存在答案的概率,并采用指针网络预测答案的起点和终点,获取问题答案,完成答案的抽取,输出答案的起点和终点;答案合并预测模块综合阅读理解模型输出的答案、起点终点对应概率对冗余答案进行合并,得到可能的答案列表以及对应的答案概率,选择概率最高的答案作为问题的最终答案,向用户提供答案。
2.如权利要求1所述的抽取式机器智能阅读理解问答系统,其特征在于:全文本搜索引擎ES将检索分为检索查询和取回两个阶段,在检索查询阶段,全文本搜索引擎ES采用基于概率检索模型的BM25算法来评价搜索词和文档(document)之间相关性,利用BM25算法来计算问题与文档的相似度。
3.如权利要求2所述的抽取式机器智能阅读理解问答系统,其特征在于:BM25算法将单词和文档D之间的相关性、单词和查询query之间的相关性和每个单词的权重3部分组成单词的分数;计算查询query字符串和文档D之间的分数,对单词和文档D之间的相关性、单词和查询query之间的相关性、每个单词的权重中单词的分数求和,对查询query进行切分,得到单词。
4.如权利要求2所述的抽取式机器智能阅读理解问答系统,其特征在于:在取回阶段:BM25算法首先创建一个主查询请求对象:多线程下载工具MultiGet,从服务器信息接口、搜索接口上获取数据,执行多个GET(multi-get request)请求,接收请求的接口的IP地址,获取请求过来的地址,获得表单提交的数据,批量获取文档,协调节点计算出文档需要被取回并向相关分片提交多个GET请求;每个分片加载并丰富文档,遍历数组,获取当前系统相关联的路径信息,将获取所有form表单中name属性为“name”的值,返回一个数组,返回当前链接使用的协议,可得到value值;返回此次请求发送的Cookie对象和包含在请求RUL中路径后面的查询字符串,以字节数的长度返回请求体,并返回文档给协调节点;一旦所有文档都被取回了,协调节点将结果返回。
5.如权利要求1所述的抽取式机器智能阅读理解问答系统,其特征在于:文档检索模块基于词移距离实现文档语义检索,从文本的整体上利用两篇文档的相似度,按相似度高低对全文本搜索引擎ES检索的文档进行排序,采用无监督词移距离WMD(word mover’sdistance)方式的语义检索来计算输入语义检索相关文档的相似度,对于一个长度为n的词汇表,每一列xi∈Rd代表一个d维嵌入embedding向量,每一个词都有一个word2vec的嵌入embedding表示,这些embedding构成一个X∈Rd×n矩阵,其中,R表示实数空间,d表示embedding的维度。
6.如权利要求5所述的抽取式机器智能阅读理解问答系统,其特征在于:文档检索模块根据第i个词xi在文中出现的次数ci,计算每个单词的归一化词袋模型nBOW权重以及单词xi和单词xj之间的距离c(i,j)=||xi-xj||2;根据nBOW权重和单词距离c(i,j)计算文档doc和文档doc'之间的距离,其中,i和j表示单词序号。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西南电子技术研究所(中国电子科技集团公司第十研究所),未经西南电子技术研究所(中国电子科技集团公司第十研究所)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010250183.8/1.html,转载请声明来源钻瓜专利网。