[发明专利]汉字字音转换方法、电子设备、存储介质在审
申请号: | 202310570517.3 | 申请日: | 2023-05-19 |
公开(公告)号: | CN116484806A | 公开(公告)日: | 2023-07-25 |
发明(设计)人: | 郭洋;王健宗;程宁 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G06F40/151 | 分类号: | G06F40/151;G06F40/30;G06F40/289 |
代理公司: | 广州嘉权专利商标事务所有限公司 44205 | 代理人: | 廖慧贤 |
地址: | 518000 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 汉字 字音 转换 方法 电子设备 存储 介质 | ||
1.一种汉字字音转换方法,其特征在于,包括:
获取目标文本与所述目标文本中的多音字位置信息;
基于所述多音字位置信息,将所述目标文本划分为第一转换文集与第二转换文集,所述第一转换文集包括所述目标文本中的单音字,所述第二转换文集包括所述目标文本中的多音字;
对所述第一转换文集中的单音字进行字音转换处理,得到第一字音集;
基于预先训练的语义识别模型对所述目标文本进行语义特征提取,得到语义特征序列;
基于所述多音字位置信息,从所述语义特征序列中提取与所述第二转换文集对应的目标多音字语义特征;
基于预先训练的字音分类器解析所述目标多音字语义特征,得到第二字音集;
根据所述第一字音集与所述第二字音集,得到与所述目标文本对应的目标字音集。
2.根据权利要求1所述的方法,其特征在于,所述获取目标文本与所述目标文本中的多音字位置信息,包括:
获取所述目标文本,并对所述目标文本进行分词处理,得到多个目标文本字符;
将多个所述目标文本字符按所述目标文本的行文顺序进行排列,得到目标字符序列;
基于汉语字音规范,从所述目标字符序列中确定所述多音字位置信息。
3.根据权利要求2所述的方法,其特征在于,所述语义特征序列包括多个语义特征元素,所述目标字符序列中的所述目标文本字符与所述语义特征序列中的所述语义特征元素在排列位置关系上一一对应,所述基于所述多音字位置信息,从所述语义特征序列中提取与所述第二转换文集对应的目标多音字语义特征,包括:
基于所述多音字位置信息,确定所述目标字符序列中的多音字的第一序列位置;
基于所述第一序列位置,确定所述语义特征序列中与所述多音字对应的所述语义特征元素;
将所述语义特征序列中与所述多音字对应的所述语义特征元素确定为所述目标多音字语义特征。
4.根据权利要求1至3任一项所述的方法,其特征在于,所述基于预先训练的字音分类器解析所述目标多音字语义特征,得到第二字音集之前,所述方法还包括预先训练所述字音分类器,具体包括:
获取训练语义特征集与第一训练标签集,所述训练语义特征集包括多个样本多音字语义特征,所述第一训练标签集包括与所述样本多音字语义特征一一对应的样本字音标签;
基于所述样本多音字语义特征与所述样本字音标签对预设的原始分类器进行训练,得到所述字音分类器。
5.根据权利要求4所述的方法,其特征在于,所述基于所述样本多音字语义特征与所述样本字音标签对预设的原始分类器进行训练,得到所述字音分类器,包括:
通过所述原始分类器识别所述样本多音字语义特征,得到第一训练识别数据;
将所述第一训练识别数据与所述样本字音标签进行比对,得到字音分类概率数据;
若所述字音分类概率数据低于预设的第一准确率阈值,则基于所述字音分类概率数据、所述训练语义特征集与所述第一训练标签集更新所述原始分类器;
基于所述样本多音字语义特征与所述样本字音标签,对更新后的所述原始分类器进行第一迭代训练;
在所述第一迭代训练之后,当所述字音分类概率数据大于或者等于所述第一准确率阈值,得到所述字音分类器。
6.根据权利要求5所述的方法,其特征在于,所述原始分类器包括依次连接的第一全连接层与第二全连接层,所述基于所述字音分类概率数据、所述训练语义特征集与所述第一训练标签集更新所述原始分类器,包括:
基于所述字音分类概率数据与所述第一训练标签集构建交叉熵损失函数;
将所述训练语义特征集输入所述第一全连接层,获取字音隐变量,并从所述第二全连接层获取字音权值;
根据所述字音隐变量与所述字音权值,得到分类夹角参数;
基于所述汉语字音集与所述分类夹角参数,对所述交叉熵损失函数进行优化,得到分类损失函数;
基于所述分类损失函数更新所述原始分类器。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310570517.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种电气柜多模态数据采集系统
- 下一篇:蚕丝纤维的加捻工艺