[发明专利]阅读理解候选选项个数不确定时的训练方法、装置及系统在审
申请号: | 202111502135.4 | 申请日: | 2021-12-09 |
公开(公告)号: | CN114138964A | 公开(公告)日: | 2022-03-04 |
发明(设计)人: | 丘德来;丁颖;张瀚之;刘升平;梁家恩 | 申请(专利权)人: | 云知声智能科技股份有限公司 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F40/126;G06F40/30;G06N3/08 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100096 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 阅读 理解 候选 选项 个数 不确 定时 训练 方法 装置 系统 | ||
1.阅读理解候选选项个数不确定时的训练方法,其特征在于,所述方法包括:
任务分组:将至少一篇阅读理解样本作为训练集,并将所述训练集划分为至少一个子任务,将答案候选选项个数相同的问题划分到同一子任务中,组成新训练集;
多任务采样:从新训练集中选取任一子任务中的一批次阅读理解的问题样本,作为模型训练的输入数据;
模型训练:对输入的输入数据进行多次训练,直至模型收敛。
2.根据权利要求1所述的方法,其特征在于,所述选取新训练集中任一子任务中的一批次问题,作为模型训练的输入数据,具体为:
从新任务集中,选取任一子任务;
从选取的子任务中选择一批次问题样本,作为模型训练的输入数据。
3.根据权利要求1所述的方法,其特征在于,所述对输入的输入数据进行多次训练,直至模型收敛,具体为:
将输入数据,输入到共享层,进行语义编码,生成该批次问题样本的表示;
基于生成的问题样本表示,激活子任务层,并前向计算损失;其中,激活的子任务层为输入数据所属的子任务中的答案候选选项个数对应的子任务层;
基于损失,反向传播,并更新对应的子任务层和共享层的参数值;
重复上述过程,直至模型收敛。
4.根据权利要求3所述的方法,其特征在于,所述共享层为阅读理解中使用预训练语言训练号的编码器。
5.阅读理解候选选项个数不确定时的训练装置,其特征在于,所述装置包括:
任务分组器,用于将训练集划分为至少一个子任务,并将答案候选选项个数相同的问题划分到同一个子任务中,组成新训练集;其中,所述训练集由至少一个阅读理解样本组成;
多任务采样器,用于在所述子任务集中选择任一子任务,并从该子任务中选择一批阅读理解的问题样本作为模型训练的输入数据;
模型训练模块,用于对输入的输入数据进行多次训练,直至模型收敛。
6.根据权利要求5所述的装置,其特征在于,所述多任务采样器包括:
第一采样器,用于在所述子任务集中选择任一子任务;
第二采样器,用于在选择的子任务中选择一批阅读理解的问题样本作为模型训练的输入数据。
7.根据权利要求5所述的装置,其特征在于,所述模型训练模块包括:
编码单元,用于将输入数据,输入到共享层,进行语义编码,生成该批次问题样本的表示;
计算单元,用于基于生成的问题样本表示,激活子任务层,并前向计算损失;其中,激活的子任务层为输入数据所属的子任务中的答案候选选项个数对应的子任务层;
反向传播单元,用于基于所述损失,反向传播,并更新对应的子任务层和共享层的参数值。
8.阅读理解候选选项个数不确定时的训练系统,其特征在于,所述系统包括至少一个处理器和存储器;
所述存储器,用于存储一个或多个程序指令;
所述处理器,用于运行一个或多个程序指令,用以执行如权利要求1至5中一个或多个所述的方法。
9.一种芯片,其特征在于,所述芯片与系统中的存储器耦合,使得所述芯片在运行时调用所述存储器中存储的程序指令,实现如权利要求1至5中一个或多个所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括一个或多个程序指令,所述一个或多个程序指令可被如权利要求8所述的系统执行,以实现如权利要求1至5中一个或多个所述的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于云知声智能科技股份有限公司,未经云知声智能科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111502135.4/1.html,转载请声明来源钻瓜专利网。