[发明专利]基于深度学习的文本处理模型训练方法、装置及设备有效
申请号: | 202010301503.8 | 申请日: | 2020-04-16 |
公开(公告)号: | CN111507094B | 公开(公告)日: | 2023-10-10 |
发明(设计)人: | 苗思奇;卢子填;胡荣杰 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F40/232 | 分类号: | G06F40/232;G06F40/126 |
代理公司: | 北京三高永信知识产权代理有限责任公司 11138 | 代理人: | 祝亚男 |
地址: | 518057 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 深度 学习 文本 处理 模型 训练 方法 装置 设备 | ||
1.一种基于深度学习的文本处理模型训练方法,其特征在于,所述方法包括:
调用文本处理模型,对目标文本进行处理,得到多个处理结果的概率,选取概率最高的处理结果作为目标处理结果;
获取所述目标文本的纠错信息,所述纠错信息包括对所述目标处理结果进行纠错后得到的纠错处理结果,所述目标处理结果与所述纠错处理结果不同;
对所述多个处理结果的概率进行统计处理,获取所述目标文本的处理结果分布特征,所述处理结果分布特征用于指示所述文本处理模型处理所述目标文本得到的处理结果的不确定性程度;
响应于所述处理结果分布特征满足目标条件,根据所述目标文本及所述纠错处理结果,对所述文本处理模型进行训练,得到训练后的文本处理模型。
2.根据权利要求1所述的方法,其特征在于,所述响应于所述处理结果分布特征满足目标条件,根据所述目标文本及所述纠错处理结果,对所述文本处理模型进行训练,得到训练后的文本处理模型,包括:
对所述处理结果分布特征进行统计处理,获取所述目标处理结果的准确度;
响应于所述目标处理结果的准确度小于预设准确度,根据所述目标文本及所述纠错处理结果,对所述文本处理模型进行训练,得到所述训练后的文本处理模型。
3.根据权利要求2所述的方法,其特征在于,所述处理结果分布特征为所述目标文本的困惑度,所述困惑度与所述目标处理结果的准确度呈正相关关系;或者,
所述处理结果分布特征为所述目标文本的信息熵,所述信息熵与所述目标处理结果的准确度呈负相关关系。
4.根据权利要求1所述的方法,其特征在于,所述对所述多个处理结果的概率进行统计处理,获取所述目标文本的处理结果分布特征之后,所述方法还包括:
若所述处理结果分布特征不满足所述目标条件,将所述纠错信息删除。
5.根据权利要求1所述的方法,其特征在于,所述响应于所述处理结果分布特征满足目标条件,根据所述目标文本及所述纠错处理结果,对所述文本处理模型进行训练,得到训练后的文本处理模型之后,所述方法还包括:
对第一文本中的每个汉字字符进行编码,得到所述每个汉字字符对应的汉字特征值;
获取包括多个预设特征值以及对应的拼音字符的映射关系,所述多个预设特征值按照顺序排列;
根据每个汉字特征值与所述多个预设特征值之间的大小关系以及所述多个预设特征值的顺序,查询所述每个汉字特征值对应的拼音字符;
将所述每个汉字字符分别转换为所述每个汉字特征值对应的拼音字符,得到第二文本;
调用所述训练后的文本处理模型,对所述第二文本进行处理,得到处理结果。
6.根据权利要求5所述的方法,其特征在于,所述根据每个汉字特征值与所述多个预设特征值之间的大小关系以及所述多个预设特征值的顺序,查询所述每个汉字特征值对应的拼音字符,包括:
对于每个汉字特征值,进行如下查询处理:
确定所述多个预设特征值中位于中间位置的第一预设特征值;
响应于所述第一预设特征值与所述汉字特征值相同,将所述第一预设特征值对应的拼音字符,作为所述汉字特征值对应的拼音字符;
响应于所述第一预设特征值小于所述汉字特征值,根据所述多个预设特征值的顺序确定大于所述第一预设特征值的第二预设特征值,直至确定的预设特征值与所述汉字特征值相同,将所述确定的预设特征值对应的拼音字符作为所述汉字特征值对应的拼音字符;
响应于所述第一预设特征值大于所述汉字特征值,根据所述多个预设特征值的顺序确定小于所述第一预设特征值的第三预设特征值,直至确定的预设特征值与所述汉字特征值相同,将所述确定的预设特征值对应的拼音字符作为所述汉字特征值对应的拼音字符。
7.根据权利要求6所述的方法,其特征在于,所述根据所述多个预设特征值的顺序确定大于所述第一预设特征值的第二预设特征值,包括:
若所述多个预设特征值按照降序排列,从位于所述第一预设特征值之前的预设特征值中,确定第二预设特征值;
若所述多个预设特征值按照升序排列,从位于所述第一预设特征值之后的预设特征值中,确定第二预设特征值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010301503.8/1.html,转载请声明来源钻瓜专利网。