[发明专利]以问题为导向的两阶段问题生成系统在审
申请号: | 202010661187.5 | 申请日: | 2019-11-27 |
公开(公告)号: | CN111813913A | 公开(公告)日: | 2020-10-23 |
发明(设计)人: | 沈耀;倪茂森;过敏意;姚斌;陈全 | 申请(专利权)人: | 上海交通大学 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F40/216;G06F40/30;G06F40/253;G06N3/04;G06N3/08;G06Q50/20 |
代理公司: | 上海交达专利事务所 31201 | 代理人: | 王毓理;王锡麟 |
地址: | 200240 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 题为 导向 阶段 问题 生成 系统 | ||
1.一种基于端到端网络的两阶段问题生成系统,其特征在于,包括:问答数据预处理模块、上下文序列标注模块和问题生成模块,其中:问答数据预处理模块对数据集进行了重新划分、特征提取及词典构建并将特征和单词向量化,得到标注训练集及真实标签;上下文序列标记模块采用标注数据集进行网络模型训练并得到上下文的预测标签;问题生成模块以真实标签和预测标签为输入产生预测问题序列,通过与真实问题的误差进行反向传播训练得到最终的最大概率预测问题;
所述的上下文序列标注模块包括:分离的双输入端编码器、前馈网络结构、条件随机场(CRF)结构;
所述的问题生成模块包括:自注意力机制的编码器、对答案进行关注的解码器以及具有门结构的指针网络。
2.根据权利要求1所述的系统,其特征是,所述的重新划分是指:问答数据预处理模块接收SQuAD数据集作为输入,将其中的验证集的一半作为验证集,另一半作为测试集。
3.根据权利要求1所述的系统,其特征是,所述的特征提取及词典构建是指:将划分得到的训练集中的所有单词进行统计,词频高于词频阈值且包含在使用的预训练词向量Glove中的单词,作为一个集合,然后额外添加UNK、PAD、S、/S表明是未知词、填充词、起始符、结束符作为本实施例的词典,再将上下文序列、问题序列和答案序列转换成为字典集合中的下标分别记为Wc、Wq和Wans,同时使用spacy工具包对上下文序列进行命名体识别得到的序列记为Wner和词性标注得到的序列记为Wpos,最后标记上下文中出现在问题中的非停止词的原型或词目Wemerge。
4.根据权利要求1所述的系统,其特征是,所述的向量化是指:在词典及特征构建完成后得到的上下文序列和答案序列转换成为字典集合中的下标Wc和Wans使用Glove预训练词向量进行向量化,将命名体识别得到的序列Wner和词性标注得到的序列Wpos进行随机向量化,以标记上下文中出现在问题中的非停止词的原型或词目Wemerge和问题序列转换成为字典集合中的下标Wq分别作为上下文序列标注模块和问题生成模块的真实标签。
5.根据权利要求1所述的系统,其特征是,所述的分离的双输入端编码器包括:上下文编码器和答案编码器,将上下文和答案序列分别通过这两个不同的两层双向LSTM编码器并分别得到两个向量Sc,Sa作为上下文状态向量和答案状态向量:其中:gi为Glove预训练词向量;fi为额外特征信息,在上下文编码器中fi包含命名体和词性信息,在答案编码器中仅考虑预训练词向量,fi为空;箭头符号表示循环神经网络的方向;[;]表示将两个向量最后维度进行连接;
为了让上下文编码器感知到当前答案信息,本实施例使用注意力机制将答案信息融合入上下文中得到融合矩阵H,注意力机制的一般表达式如下:Attention(Q,K,V)=softmax((WQ·Q)·(WK·K)T)·(WV·V),其中:H=Attention(Sa,Sc,Sc),其中:WQ,WK,是可训练的参数矩阵。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海交通大学,未经上海交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010661187.5/1.html,转载请声明来源钻瓜专利网。