[发明专利]一种数据处理方法及装置在审
申请号: | 202111094328.0 | 申请日: | 2021-09-17 |
公开(公告)号: | CN113807540A | 公开(公告)日: | 2021-12-17 |
发明(设计)人: | 凡子威;占吉清;余健;王砚峰;朱运;赵昂 | 申请(专利权)人: | 北京搜狗科技发展有限公司 |
主分类号: | G06N20/00 | 分类号: | G06N20/00;G06N5/02;G06N3/04;G06N3/08;G06K9/62;G06F40/284;G06F40/289;G10L15/26 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 储倩 |
地址: | 100084 北京市海淀区中关*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据处理 方法 装置 | ||
1.一种数据处理方法,其特征在于,所述方法包括:
获取业务数据;
将业务数据输入预训练模型和初始业务模型,得到所述预训练模型的全连接层输出以及所述初始业务模型的全连接层输出;其中,所述预训练模型的建模单元为单个字符,所述初始业务模型的建模单元为分词,一个建模单元对应一个全连接层输出;
将所述预训练模型的建模单元与所述初始业务模型的建模单元进行匹配,得到所述预训练模型的建模单元中的字符、所述字符与所述初始业务模型的各个建模单元分别匹配;
根据所述初始业务模型的全连接层输出、以及所述各个建模单元分别匹配的字符的全连接层输出进行知识蒸馏,得到目标业务模型。
2.根据权利要求1所述的方法,其特征在于,所述初始业务模型和所述目标业务模型用于为文本添加标点符号。
3.根据权利要求2所述的方法,其特征在于,将所述预训练模型的建模单元与所述初始业务模型的建模单元进行匹配,得到所述预训练模型的建模单元中的字符、所述字符与所述初始业务模型的各个建模单元分别匹配,包括:
若第一字符集合构成第一分词,则将所述第一字符集合的最后一个字符,确定为与所述第一分词匹配的字符,其中:所述第一字符集合包括多个字符,所述多个字符均为所述预训练模型的建模单元,所述第一分词为所述初始业务模型的任意一个建模单元。
4.根据权利要求2所述的方法,其特征在于,所述方法还包括:
获取语音数据;
对所述语音数据进行识别,得到所述语音数据对应的文本;
利用所述目标业务模型,为所述语音数据对应的文本添加标点符号;
输出添加了所述标点符号的所述语音数据对应的文本。
5.根据权利要求1所述的方法,其特征在于,所述业务数据为根据语音自动识别得到的文本。
6.一种数据处理装置,其特征在于,所述装置包括:
第一获取单元,用于获取业务数据;
输入单元,用于将业务数据输入预训练模型和初始业务模型,得到所述预训练模型的全连接层输出以及所述初始业务模型的全连接层输出;其中,所述预训练模型的建模单元为单个字符,所述初始业务模型的建模单元为分词,一个建模单元对应一个全连接层输出;
匹配单元,用于将所述预训练模型的建模单元与所述初始业务模型的建模单元进行匹配,得到所述预训练模型的建模单元中的字符、所述字符与所述初始业务模型的各个建模单元分别匹配;
确定单元,用于根据所述初始业务模型的全连接层输出、以及所述各个建模单元分别匹配的字符的全连接层输出进行知识蒸馏,得到目标业务模型。
7.根据权利要求6所述的装置,其特征在于,所述初始业务模型和所述目标业务模型用于为文本添加标点符号。
8.根据权利要求7所述的装置,其特征在于,所述匹配单元,用于:
若第一字符集合构成第一分词,则将所述第一字符集合的最后一个字符,确定为与所述第一分词匹配的字符,其中:所述第一字符集合包括多个字符,所述多个字符均为所述预训练模型的建模单元,所述第一分词为所述初始业务模型的任意一个建模单元。
9.根据权利要求7所述的装置,其特征在于,所述装置还包括:
第二获取单元,用于获取语音数据;
识别单元,用于对所述语音数据进行识别,得到所述语音数据对应的文本;
处理单元,用于利用所述目标业务模型,为所述语音数据对应的文本添加标点符号;
输出单元,用于输出添加了所述标点符号的所述语音数据对应的文本。
10.根据权利要求6所述的装置,其特征在于,所述业务数据为根据语音自动识别得到的文本。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京搜狗科技发展有限公司,未经北京搜狗科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111094328.0/1.html,转载请声明来源钻瓜专利网。