[发明专利]文本处理方法、装置、电子设备及存储介质在审
申请号: | 201811413110.5 | 申请日: | 2018-11-23 |
公开(公告)号: | CN109545183A | 公开(公告)日: | 2019-03-29 |
发明(设计)人: | 李永强;张冉;张征 | 申请(专利权)人: | 北京羽扇智信息科技有限公司 |
主分类号: | G10L13/08 | 分类号: | G10L13/08;G10L13/02;G06F17/27 |
代理公司: | 北京品源专利代理有限公司 11332 | 代理人: | 孟金喆 |
地址: | 100080 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 目标字符串 输入文本 替换 英文字符串 存储介质 电子设备 替换处理 文本处理 文本分词 映射关系 中英文 发音 句子发音 文本分割 音素发音 英文单词 英文字母 中文字 自然度 中文 分词 夹杂 语音 协调 | ||
本发明实施例公开了一种文本处理方法、装置、电子设备及存储介质。该方法包括:识别输入文本中包括的至少一组英文字符串;如果确定英文字符串中包括不属于英文单词的目标字符串,则获取与目标字符串中每个英文字母对应的替换字符对目标字符串进行替换处理,替换字符不属于中文字;对替换处理后的输入文本进行文本分割,得到至少一个文本分词;根据中英文分词与中英文发音之间的映射关系,以及替换字符与中文音素发音之间的映射关系,获取输入文本中的各文本分词的发音。本发明实施例提供的技术方案,解决了现有技术中处理中文中夹杂着由字母组成的特殊名词的句子发音不协调的问题,增加了语音的自然度。
技术领域
本发明实施例涉及信息处理技术领域,特别是涉及一种文本处理方法、装置、电子设备及存储介质。
背景技术
TTS(Text To Speech,语音合成)是一种将文字转换成人类自然语言的技术,被广泛应用在车机导航播报、商家的在线客服、智能机器人语言交互等方面。
TTS系统主要分为前端和后端,其中前端主要完成分析文本的工作,将字素转换成音素,主要包括文本正规化、断句、生成发音等工作。TTS的后端主要完成语音的合成,主要包括韵律预测、原始音频合成等工作。TTS系统的好坏主要由其合成的语音是否更加符合人类的自然语言决定,其常用的标准为MOS(Mean Opinion Score,平均意见得分)测试,该值越高说明系统的效果越好。TTS系统合成普通话的难点之一是处理中文中夹杂着由字母组成的特殊名词的句式,比如“打开QQ聊天”。TTS系统处理这种句式的方案是先对该句子进行分割“打开/QQ/聊天”,然后用英文方式处理“QQ”。
现有技术虽然在处理中英混杂的句子效果较好,但由于字母组成的特殊名词并不是英文单词,使用该方案有时存在不理想的效果,造成句子发音不协调,降低MOS值。
发明内容
有鉴于此,本发明实施例提供了一种文本处理方法、装置、电子设备及存储介质,主要目的在于解决中文中夹杂特殊的字母名词的句子发音不协调的问题。
为了解决上述问题,本发明实施例主要提供如下技术方案:
第一方面,本发明实施例提供了一种文本处理方法,该方法包括:
识别输入文本中包括的至少一组英文字符串;
如果确定所述英文字符串中包括不属于英文单词的目标字符串,则获取与所述目标字符串中每个英文字母对应的替换字符对所述目标字符串进行替换处理,所述替换字符不属于中文字;
对替换处理后的输入文本进行文本分割,得到至少一个文本分词;
根据中英文分词与中英文发音之间的映射关系,以及替换字符与中文音素发音之间的映射关系,获取所述输入文本中的各文本分词的发音。
可选的,在获取输入文本中包括的至少一组英文字符串之前,还包括:
获取中文习惯发音的标准英文字符串集合;
获取与所述标准英文字符串集合匹配的多个标准英文字母,并建立替换字符与各所述标准英文字母之间的映射关系;
使用中文音素发音对各所述标准英文字母进行标注,并根据标注结果,建立替换字符与各所述中文音素发音之间的映射关系。
可选的,所述替换字符包括:日文片假名。
可选的,对所述输入文本中英文字符串的识别操作以及对目标字符串的替换处理操作在文本的正规化处理阶段实现。
可选的,确定所述英文字符串中包括不属于英文单词的目标字符串,包括:
将所述至少一组英文字符串分别在标准英文字典进行查找,并将在所述标准英文字典中未查找到的英文字符串作为所述目标字符串。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京羽扇智信息科技有限公司,未经北京羽扇智信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811413110.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:语音合成集成电路
- 下一篇:一种基于语音校准的背诵检测方法及电子设备