[发明专利]文本处理和模型训练方法、装置、存储介质和电子设备在审
申请号: | 202010609613.0 | 申请日: | 2020-06-29 |
公开(公告)号: | CN111783480A | 公开(公告)日: | 2020-10-16 |
发明(设计)人: | 魏文扬;陈坦访;王伟玮;李奘 | 申请(专利权)人: | 北京嘀嘀无限科技发展有限公司 |
主分类号: | G06F40/58 | 分类号: | G06F40/58;G06F40/44 |
代理公司: | 北京睿派知识产权代理事务所(普通合伙) 11597 | 代理人: | 刘锋 |
地址: | 100193 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 处理 模型 训练 方法 装置 存储 介质 电子设备 | ||
1.一种文本处理方法,其特征在于,所述方法包括:
获取待处理文本;
对所述待处理文本进行分词处理以获取词序列,所述词序列包括多个词;
根据公有词表和私有词表对所述词序列中各词进行检测以获取所述待处理文本的语料类型,所述语料类型包括第一语料和第二语料,其中,所述公有词表中的词为在所述第一语料中的词,所述私有词表中的词为在所述第二语料且不在所述第一语料中的词;
根据所述语料类型获取所述词序列中各词的权重系数;
确定所述词序列对应的嵌入向量;以及
通过预先训练的翻译模型根据所述嵌入向量和所述权重系数获取目标文本。
2.根据权利要求1所述的方法,其特征在于,根据公有词表和私有词表对所述词序列中各词进行检测以获取所述待处理文本的语料类型包括:
根据所述公有词表和所述私有词表获取所述词序列中各词的词属性,所述词属性包括公有词和私有词,所述公有词为所述第一词表中的词,所述私有词为所述第二词表中的词;
响应于所述词序列包括私有词,确定所述待处理文本的语料类型为第二语料;以及
响应于所述词序列不包括私有词,确定所述待处理文本的语料类型为第一语料。
3.根据权利要求1所述的方法,其特征在于,根据所述语料类型获取所述词序列中各词的权重系数包括:
响应于所述语料类型为第一语料,将所述词序列中各词的权重系数设置为第一值;以及
响应于所述语料类型为第二语料,将所述词序列中的私有词的权重系数设置为第二值,并通过预先训练的语言模型计算所述词序列中的公有词的权重系数。
4.根据权利要求3所述的方法,其特征在于,所述预先训练的语言模型包括第一语言模型和第二语言模型;
所述通过预先训练的语言模型计算所述词序列中的公有词的权重系数包括:
通过所述第一语言模型获取所述词序列中的各公有词的第一概率,所述第一概率为在第一语料对应的公有词依赖于n个在前词出现的条件概率,所述在前词为所述词序列中在所述公有词之前出现的词;
通过所述第二语言模型获取所述词序列中的各公有词的第二概率,所述第二概率为在第二语料对应的公有词依赖于n个在前词出现的条件概率,所述在前词为所述词序列中在所述公有词之前出现的词;以及
根据所述第一概率和所述第二概率计算所述词序列中的公有词的权重系数,所述权重系数为所述第一概率和所述第二概率的比值。
5.根据权利要求1所述的方法,其特征在于,确定所述词序列对应的嵌入向量包括:
获取所述词序列中各词的词向量;
获取所述词序列中各词的位置向量;以及
根据所述词向量和所述位置向量获取所述词序列对应的嵌入向量。
6.根据权利要求1所述的方法,其特征在于,所述预先训练的翻译模型包括至少一个编码器层和至少一个解码器层;
所述通过预先训练的翻译模型根据所述嵌入向量和所述权重系数获取目标文本包括:
通过所述至少一个编码器根据所述嵌入向量获取第一隐层向量;
通过所述权重系数对所述第一隐层向量进行调整以获取第二隐层向量;以及
通过所述至少一个解码器根据所述第二隐层向量获取所述目标文本。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京嘀嘀无限科技发展有限公司,未经北京嘀嘀无限科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010609613.0/1.html,转载请声明来源钻瓜专利网。