[发明专利]问题生成方法有效
申请号: | 202010570508.0 | 申请日: | 2020-06-19 |
公开(公告)号: | CN111723185B | 公开(公告)日: | 2022-07-08 |
发明(设计)人: | 朱少华;缪庆亮;俞凯 | 申请(专利权)人: | 思必驰科技股份有限公司 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F17/18;G06F40/211;G06F40/284;G06N3/04 |
代理公司: | 北京商专永信知识产权代理事务所(普通合伙) 11400 | 代理人: | 黄谦;车江华 |
地址: | 215123 江苏省苏州市苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 问题 生成 方法 | ||
1.一种问题生成方法,包括:
对阅读理解数据集中的阅读理解数据进行预处理,以得到多条问题生成数据;
将问题生成数据输入至编码器,并获取编码器隐层状态;
将相应于所述问题生成数据的问题输入至解码器,并获取解码器隐层状态;
基于所述编码器隐层状态和所述解码器隐层状态确定预设词典中的词的生成概率;
根据当前时刻的上下文向量、解码器隐层状态和解码器输入确定当前时刻的词生成概率;
根据所述词的生成概率和所述当前时刻的词生成概率确定词的概率分布,用于问题生成。
2.根据权利要求1所述的方法,其中,所述基于所述编码器隐层状态和所述解码器隐层状态确定预设词典中的词的生成概率包括:
根据所述编码器隐层状态和所述解码器隐层状态计算第一关联向量;
对所述第一关联向量进行softmax操作并归一化处理得到第一注意力分布;
根据所述第一注意力分布确定当前时刻的上下文向量;
根据所述当前时刻的上下文向量和所述解码器隐层状态确定预设词典中的词的生成概率。
3.根据权利要求2所述的方法,其中,所述当前时刻的词生成概率由以下公式确定:
其中,wh*,ws,wy和标量bptr是可学习参数,δ是sigmoid函数。
4.根据权利要求3所述的方法,其中,所述词的概率分布由以下公式确定:
其中,当w是一个未登陆词时,Pvacab(w)为0;当w没有出现在输入文本中时,那么为0。
5.根据权利要求1所述的方法,其中,所述基于所述编码器隐层状态和所述解码器隐层状态确定预设词典中的词的生成概率包括:
根据所述编码器隐层状态和所述解码器隐层状态计算第一关联向量;
对所述第一关联向量进行softmax操作并归一化处理得到第一注意力分布;
对当前时刻之前的多个第一注意力分布求和;
根据求和结果所述编码器隐层状态和所述解码器隐层状态计算第二关联向量;
对所述第二关联向量进行归一化得到第二注意力分布;
根据所述第二注意力分布确定当前时刻的第二上下文向量;
根据所述当前时刻的第二上下文向量和所述解码器隐层状态确定预设词典中的词的生成概率。
6.根据权利要求1-5中任一项所述的方法,其中,所述阅读理解数据集中包括多条阅读理解数据,每条阅读理解数据均包括阅读理解文章、问题和答案;
所述对阅读理解数据集中的阅读理解数据进行预处理,以得到多条问题生成数据包括对阅读理解数据做如下预处理:根据所述问题和答案从所述阅读理解文章中获取有效问题生成语句。
7.根据权利要求6所述的方法,其中,所述根据所述问题和答案从所述阅读理解文章中获取有效问题生成语句包括:
确定所述阅读理解数据中包含所述答案的最短句子为目标句子;
当所述目标句子中不包含所述问题的主语时,从所述目标句子和所述问题中去除预设词得到新的目标句子和新的问题语句;
确定所述新的目标句子和所述新的问题语句之间的交集的长度与所述新的问题语句的长度之间的第一比值;
当所述第一比值大于第一设定阈值时,获取所述目标句子作为有效问题生成语句。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于思必驰科技股份有限公司,未经思必驰科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010570508.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:信息处理方法、信息处理装置、计算机系统和介质
- 下一篇:一种平板闸阀