[发明专利]汉字字音转换方法、电子设备、存储介质在审
申请号: | 202310570517.3 | 申请日: | 2023-05-19 |
公开(公告)号: | CN116484806A | 公开(公告)日: | 2023-07-25 |
发明(设计)人: | 郭洋;王健宗;程宁 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G06F40/151 | 分类号: | G06F40/151;G06F40/30;G06F40/289 |
代理公司: | 广州嘉权专利商标事务所有限公司 44205 | 代理人: | 廖慧贤 |
地址: | 518000 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 汉字 字音 转换 方法 电子设备 存储 介质 | ||
本申请涉及人工智能技术领域,尤其是涉及一种汉字字音转换方法、电子设备、存储介质。本申请第一方面实施例的汉字字音转换方法,需要先获取目标文本与目标文本中的多音字位置信息,再基于多音字位置信息,将目标文本划分为第一转换文集与第二转换文集,对第一转换文集中的单音字进行字音转换处理,得到第一字音集,基于预先训练的语义识别模型对目标文本进行语义特征提取,得到语义特征序列,基于多音字位置信息,从语义特征序列中提取与第二转换文集对应的目标多音字语义特征,基于预先训练的字音分类器解析目标多音字语义特征,得到第二字音集,最终根据第一字音集与第二字音集得到与目标文本对应的目标字音集,提升了汉字字音转换的准确率。
技术领域
本申请涉及人工智能技术领域,尤其是涉及一种汉字字音转换方法、电子设备、存储介质。
背景技术
汉字字音转换,指的是将汉语文本转换为对应汉语拼音的过程,汉语拼音用于标注汉语文本的发音。汉字字音转换可以应用于很多场景,例如,语音合成(Text To Speech,TTS)应用场景。汉字与英文字母不同,它表征语义而非发音,字音转换的准确率直接影响语音合成的可懂度。然而,汉字中存在多音字,其发音需要根据上下文语义确定。
相关技术中,为了在汉字字音转换的过程中消除多音字的发音歧义,一些方法中通过定义的复杂规则和字典来选择多音字的发音,但是这类方法需要大量定义的语言学规则且使用上并不灵活;还有一些方法中对文本分词后利用决策树和最大熵来选择多音字的发音,不过这类方法却依赖于分词的质量,若分词结果与决策树的内容不匹配则容易产生级联错误。因此,如何提升汉字字音转换的准确率,已经成为业内亟待解决的一大难题。
发明内容
本申请旨在至少解决现有技术中存在的技术问题之一。为此,本申请提出一种汉字字音转换方法、电子设备、存储介质,能够提升汉字字音转换的准确率。
根据本申请的第一方面实施例的汉字字音转换方法,包括:
获取目标文本与所述目标文本中的多音字位置信息;
基于所述多音字位置信息,将所述目标文本划分为第一转换文集与第二转换文集,所述第一转换文集包括所述目标文本中的单音字,所述第二转换文集包括所述目标文本中的多音字;
对所述第一转换文集中的单音字进行字音转换处理,得到第一字音集;
基于预先训练的语义识别模型对所述目标文本进行语义特征提取,得到语义特征序列;
基于所述多音字位置信息,从所述语义特征序列中提取与所述第二转换文集对应的目标多音字语义特征;
基于预先训练的字音分类器解析所述目标多音字语义特征,得到第二字音集;
根据所述第一字音集与所述第二字音集,得到与所述目标文本对应的目标字音集。
根据本申请的一些实施例,所述获取目标文本与所述目标文本中的多音字位置信息,包括:
获取所述目标文本,并对所述目标文本进行分词处理,得到多个目标文本字符;
将多个所述目标文本字符按所述目标文本的行文顺序进行排列,得到目标字符序列;
基于汉语字音规范,从所述目标字符序列中确定所述多音字位置信息。
根据本申请的一些实施例,所述语义特征序列包括多个语义特征元素,所述目标字符序列中的所述目标文本字符与所述语义特征序列中的所述语义特征元素在排列位置关系上一一对应,所述基于所述多音字位置信息,从所述语义特征序列中提取与所述第二转换文集对应的目标多音字语义特征,包括:
基于所述多音字位置信息,确定所述目标字符序列中的多音字的第一序列位置;
基于所述第一序列位置,确定所述语义特征序列中与所述多音字对应的所述语义特征元素;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310570517.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种电气柜多模态数据采集系统
- 下一篇:蚕丝纤维的加捻工艺