[发明专利]模型训练方法、识别方法、装置及计算设备有效
申请号: | 201810962228.7 | 申请日: | 2018-08-22 |
公开(公告)号: | CN110895659B | 公开(公告)日: | 2023-05-26 |
发明(设计)人: | 宋楷;于恒;骆卫华 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F40/58 | 分类号: | G06F40/58;G06F40/289;G06N3/08;G06N3/049;G06N3/0464;G06N3/0442 |
代理公司: | 北京太合九思知识产权代理有限公司 11610 | 代理人: | 刘戈 |
地址: | 英属开曼群岛大开*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 模型 训练 方法 识别 装置 计算 设备 | ||
1.一种模型训练方法,其特征在于,包括:
确定输入样本的输入序列;
将输出样本的每个词切分为词干及词尾,获得所述输出样本的词干序列及词尾序列;
将所述输出样本的词干序列及词尾序列作为输出序列;
基于所述输入序列及所述输出序列训练获得编码-解码结构的识别模型,所述识别模型包括编码器和解码器,训练所述解码器预测当前时间步的词尾时的输入内容包括所述解码器预测的当前时间步的词干以及用于训练所述解码器预测当前时间步的词干时的输入内容中关于所述当前时间步的内容。
2.根据权利要求1所述的方法,其特征在于,所述识别模型用于基于待处理对象的源序列,预测构成目标序列的每个词的词干及词尾,并将构成所述目标序列的每个词的词干及词尾合并以获得所述目标序列。
3.根据权利要求1所述的方法,其特征在于,所述将输出样本的每个词切分为词干以及词尾,获得所述输出样本对应的词干序列及词尾序列包括:
确定输出样本对应的词序列;
将所述词序列中的每个词进行形态分析,获得每个词的词干以及词尾;
分别将每个词的词干以及词尾按照词序列中的每个词出现顺序,排列形成词干序列以及词尾序列;其中,所述词干序列与所述词尾序列中的词干以及词尾一一对应。
4.根据权利要求1所述的方法,其特征在于,所述基于所述输入序列及所述输出序列训练编码-解码结构的识别模型包括:
基于所述输入序列训练所述识别模型的编码器,以获得所述输入序列的上下文信息;
基于所述上下文信息、所述词干序列、所述词尾序列及解码器隐藏状态,训练所述识别模型的解码器。
5.根据权利要求4所述的方法,其特征在于,所述基于所述输入序列训练所述识别模型的编码器,以获得所述输入序列的上下文信息包括:
基于所述输入序列训练所述识别模型的编码器,以获得所述输入序列对应输出序列每个时间步的上下文信息;
所述基于所述上下文信息、所述词干序列、所述词尾序列及解码器隐藏状态,训练所述识别模型的解码器包括:
将当前时间步的上下文信息、当前时间步对应词干的解码器隐藏状态、以及前一时间步的词干作为第一输入内容、以及将当前时间步的词干作为所述第一输入内容的第一输出结果;
将当前时间步的上下文信息、当前时间步对应词干的解码器隐藏状态、以及当前时间步的词干作为第二输入内容、以及将当前时间步的词尾作为所述第二输入内容的第二输出结果;
基于所述第一输入内容和所述第一输出结果,以及所述第二输入内容和所述第二输出结果,训练所述识别模型的解码器。
6.根据权利要求5所述的方法,其特征在于,所述将当前时间步的上下文信息、当前时间步的解码器隐藏状态、以及当前时间步的词干作为第二输入内容、以及将当前时间步的词尾作为所述第二输入内容的第二输出结果包括:
将当前时间步的上下文信息、当前时间步对应词干的解码器隐藏状态、当前时间步的词干、以及前一时间步的词尾作为第二输入内容、以及将当前时间步的词尾作为所述第二输入内容的第二输出结果。
7.根据权利要求1所述的方法,其特征在于,所述输入样本为文本;所述确定输入样本的输入序列包括:
将所述输入样本的每个的词进行形态分析,获得所述输入样本对应的词干序列及词尾序列;
将所述输入样本对应的词干序列及词尾序列作为输入序列。
8.根据权利要求1所述的方法,其特征在于,所述输入样本为源语言训练语句;所述输出样本为所述源语言训练语句对应的目标语言训练语句。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810962228.7/1.html,转载请声明来源钻瓜专利网。