[发明专利]一种词句生成方法、模型训练方法及相关设备在审
申请号: | 202110775982.1 | 申请日: | 2021-07-08 |
公开(公告)号: | CN113655893A | 公开(公告)日: | 2021-11-16 |
发明(设计)人: | 肖镜辉;刘群;吴海腾;谢武锋;熊元峰 | 申请(专利权)人: | 华为技术有限公司 |
主分类号: | G06F3/023 | 分类号: | G06F3/023;G06F40/126;G06F40/216 |
代理公司: | 深圳市深佳知识产权代理事务所(普通合伙) 44285 | 代理人: | 李杭 |
地址: | 518129 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 词句 生成 方法 模型 训练 相关 设备 | ||
1.一种词句生成方法,其特征在于,包括:
获取字符串序列,所述字符串序列包括M个字符串,每个所述字符串指示一个或多个候选词语,其中,M为正整数;
根据所述字符串序列,通过编码器,得到M个第一字符串向量,每个所述第一字符串向量对应所述M个字符串中的一个字符串;
基于所述M个第一字符串向量,获取所述M个字符串指示的每个候选词语的第一概率;
基于所述第一概率,生成目标词句,所述目标词句包括M个目标词语,每个所述目标词语为所述每个字符串指示的一个或多个候选词语中的一个。
2.根据权利要求1所述的方法,其特征在于,所述根据所述字符串序列,通过编码器,得到M个第一字符串向量包括:
根据所述字符串序列获取M个第一位置向量和M个第二字符串向量,每个所述第一位置向量表示一个所述字符串在所述字符串序列中的位置,每个所述第二字符串向量表示一个所述字符串;
根据所述M个第一位置向量和所述M个第二字符串向量,通过编码器,得到所述多个第一字符串向量。
3.根据权利要求1或2所述的方法,其特征在于,所述编码器是基于转换任务训练得到的,所述转换任务是将样本字符串序列转换成样本词句的任务。
4.根据权利要求1至3中任意一项所述方法,其特征在于,所述基于所述M个第一字符串向量,获取所述M个字符串指示的每个候选词语的第一概率包括:
基于所述M个第一字符串向量,通过概率模型,获取所述M个字符串指示的每个候选词语的第一概率,所述概率模型是基于转换任务训练得到的,所述转换任务是将样本字符串序列转换成样本词句的任务。
5.根据权利要求1至4中任意一项所述方法,其特征在于,所述基于所述第一概率,生成目标词句包括:
根据所述字符串序列,通过Ngram模型,获取所述M个字符串指示的每个候选词语的第三概率;
基于所述第一概率,所述第三概率以及维特比Viterbi算法,生成目标词句。
6.根据权利要求1至4中任意一项所述方法,其特征在于,所述基于所述第一概率,生成目标词句包括:
从参考词典中获取参考词语,所述参考词语包括P个参考字符串指示的P个候选词语,每个所述参考字符串指示一个所述候选词语,所述P个参考字符串包含于所述字符串序列中,且在所述字符串序列中的位置连续,其中,P为大于1的整数;
基于所述P个候选词语各自的第一概率,计算所述参考词语的第四概率;
基于所述第四概率以及所述字符串序列中除所述P个参考字符串外的其他字符串指示的每个候选词语的第一概率,生成目标词句。
7.根据权利要求6所述的方法,其特征在于,所述基于所述第四概率以及所述字符串序列中除所述P个参考字符串外的其他字符串指示的每个候选词语的第一概率,生成目标词句包括:
通过Ngram模型,获取所述字符串序列中除所述P个参考字符串外其他字符串指示的每个候选词语的第五概率,以及所述参考词语的第五概率;
基于所述字符串序列中除所述P个参考字符串外其他字符串指示的每个候选词语的第一概率,所述第四概率、所述第五概率以及Viterbi算法,生成目标词句。
8.根据权利要求7所述的方法,其特征在于,目标字符串为所述字符串序列中排在所述P个参考字符串之后的字符串;
所述目标字符串指示的每个候选词语的第五概率是,在Q个候选词语出现的情况下所述目标字符串指示的候选词语出现的条件概率,Q为正整数;
所述Q个候选词语包括所述字符串序列中,排在所述目标字符串前的Q个连续字符串中的每个字符串指示的一个候选词语,且当所述Q个字符串包含所述参考字符串时,所述Q个候选词语包含所述参考字符串指示的所述参考词语中的候选词语。
9.根据权利要求1至8中任意一项所述方法,其特征在于,在所述基于所述第一概率,生成目标词句之后,所述方法还包括:将所述目标词句作为首选词句进行提示,所述首选词句为输入法提示的多个词句中排在第一位的词句。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华为技术有限公司,未经华为技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110775982.1/1.html,转载请声明来源钻瓜专利网。