[发明专利]一种根据越南语书写文本生成发音词典的方法有效
申请号: | 202110822873.0 | 申请日: | 2021-07-21 |
公开(公告)号: | CN113506559B | 公开(公告)日: | 2023-06-09 |
发明(设计)人: | 孙春玲 | 申请(专利权)人: | 成都启英泰伦科技有限公司 |
主分类号: | G10L13/02 | 分类号: | G10L13/02;G10L13/08;G10L13/10 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 610041 四川省成都市高*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 根据 越南语 书写 文本 生成 发音 词典 方法 | ||
一种根据越南语书写文本生成发音词典的方法,包括如下步骤:将越南语书写文本分解为至少包括韵母和声调两种特征的音素、至多包括声母、韵母、声调特征的音素;各个音素用互不重复的音素符号表示;书写文本不同但发音相同的声母或韵母采用相同的音素符号表示;全部书写文本分解后,生成书写文本与音素符号对应关系,作为发音词典。本发明在实际发音的基础上构建越南语文字书写文本与发音词典音素间的对应关系,适用于不同大小语料的模型训练,提升了发音词典的准确性和适用性。本发明采用的发音词典构建方法,将越南语中包含的特殊字母和声调符号,用新的编码符号表示,降低了本领域技术人员的使用难度,提升发音词典的适用性。
技术领域
本发明属于语音识别技术领域,具体涉及一种根据越南语书写文本生成发音词典的方法。
背景技术
语音是人类与生俱来的高效便捷的交流方式,也人机交互的重要手段。自20世纪50年出现以来,语音识别技术实现商用并逐步融入人们的日常生活中。但目前国内外针对越南语语音识别的研究不多,受限于专业知识、语料库大小等因素,越南语语音识别领域的进展较缓慢。
语音识别技术中,发音词典是语音识别系统中重要的组成部分,其准确性和适用性对语音识别率的提升与否具有重要影响。发音字典包含了从单词到音素之间的映射,作用是用来连接声学模型和语言模型的。发音字典包含系统所能处理的单词的集合,并标明了其发音,生成发音词典首先要确定的是单词到音素的转换规则/映射关系。
越南语国语字使用的是拼音文字,以拉丁字母为基础,增加了若干新字母和声调符号,各音节间有明确界限。但如果将一个音节作为一个音素识别单位,会存在音素过多的问题,特别在越南语本身语音数据资源较少的情况下,识别率会受到较大影响。目前的越南语研究中,多采用将所有音素划分为元音和辅音两类,不同声调的元音作为不同音素的方法。相比于以音节作为音素单元,该方法更具有代表性。
但越南语中,相同元音或辅音符号出现在不同位置时,其实际发音可能存在明显区别;而实际发音相同的元音或辅音,也可能存在不同的书写形式。因此,不加区分地将所有音素划分为元音与辅音的方法形成的发音词典,会出现发音词典准确性不足的问题。
且相比于常见的拉丁字母,越南语中存在较多特殊符号,增加了本领域技术人员的使用难度。因此上述发音词典音素标注方法,在准确性和适用性上存在明显不足,影响了发音词典的质量。
发明内容
为克服现有技术存在的技术缺陷,本发明公开了一种根据越南语书写文本生成发音词典的方法。
本发明所述根据越南语书写文本生成发音词典的方法,包括如下步骤:
将越南语书写文本分解为至少包括韵母和声调两种特征音素,至多包括声母、韵母、声调三种特征音素;
各个音素用互不重复的音素符号表示;
书写文本不同但发音相同的声母或韵母采用相同的音素符号表示;
全部书写文本分解后,生成书写文本与音素符号对应关系,作为发音词典。
优选的,所述声母的音素符号采用1-2位字母表示。
优选的,所述韵母的音素符号采用1-6位字母表示。
优选的,所述特殊字符的音素符号采用2位字母表示。
优选的,所述声调的音素符号采用1位数字表示。
本发明在实际发音的基础上构建越南语文字书写文本与发音词典音素间的对应关系,适用于不同大小语料的模型训练,提升了发音词典的准确性和适用性。本发明采用的发音词典构建方法,将越南语中包含的特殊字母和声调符号,用新的编码符号表示,降低了本领域技术人员的使用难度,提升发音词典的适用性。
具体实施方式
下面对本发明的具体实施方式作进一步的详细说明。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都启英泰伦科技有限公司,未经成都启英泰伦科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110822873.0/2.html,转载请声明来源钻瓜专利网。