[发明专利]构建专有发音词典的方法、装置以及存储介质在审
申请号: | 201910678978.6 | 申请日: | 2019-07-25 |
公开(公告)号: | CN112287112A | 公开(公告)日: | 2021-01-29 |
发明(设计)人: | 高星;赵立军 | 申请(专利权)人: | 北京中关村科金技术有限公司 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G10L15/26 |
代理公司: | 北京万思博知识产权代理有限公司 11694 | 代理人: | 刘冀 |
地址: | 100000 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 构建 专有 发音 词典 方法 装置 以及 存储 介质 | ||
1.一种构建专有发音词典的方法,其特征在于,包括:
获取语音信息,所述语音信息用于记录与特定专业相关的语音音频;
根据预定算法确定与所述语音信息对应的文本信息;
将所述文本信息与通用词典进行匹配,从所述文本信息中确定所述通用词典未收录的词语;
从所述未收录的词语中确定用于构建专有发音词典的专有词语;以及
将所述专有词语追加到所述通用词典,构建所述专有发音词典。
2.根据权利要求1所述的方法,其特征在于,从所述未收录的词语中确定用于构建专有发音词典的专有词语的操作,包括:
计算所述文本信息中包含的词语的词频;
从所述文本信息中选择词频大于第一阈值的词语作为候选词语;以及
从所述候选词语中选择字数小于第二阈值的词语作为所述专有词语。
3.根据权利要求1所述的方法,其特征在于,将所述专有词语追加到所述通用词典,构建所述专有发音词典的操作,包括:
确定与所述专有词语对应的音素;以及
将所述专有词语以及对应的音素追加到所述通用词典,构建所述专有发音词典。
4.根据权利要求3所述的方法,其特征在于,生成与所述专有词语对应的音素的操作,包括:
确定与所述专有词语对应的拼音;以及
根据所述专有词语对应的拼音中包含的声母和韵母确定所述专有词语对应的音素。
5.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,在所述程序运行时由处理器执行权利要求1至4中任意一项所述的方法。
6.一种构建专有发音词典的装置,其特征在于,包括:
获取模块,用于获取语音信息,所述语音信息用于记录与特定专业相关的语音音频;
确定模块,用于根据预定算法确定与所述语音信息对应的文本信息;
匹配模块,用于将所述文本信息与通用词典进行匹配,从所述文本信息中确定所述通用词典未收录的词语
筛选模块,用于从所述未收录的词语中确定用于构建专有发音词典的专有词语;以及
构建模块,将所述专有词语追加到所述通用词典,构建所述专有发音词典。
7.根据权利要求6所述的装置,其特征在于,所述筛选模块,包括:
词频计算子模块,用于计算所述文本信息中包含的词语的词频;
第一筛选子模块,用于从所述文本信息中选择词频大于第一阈值的词语作为候选词语;以及
第二筛选子模块,用于从所述候选词语中选择字数小于第二阈值的词语作为所述专有词语。
8.根据权利要求6所述的装置,其特征在于,所述构建模块,包括:
音素计算子模块,用于确定与所述专有词语对应的音素;以及
构建子模块,用于将所述专有词语以及对应的音素追加到所述通用词典,构建所述专有发音词典。
9.根据权利要求8所述的装置,其特征在于,所述音素计算子模块,包括:
第一确定单元,用于确定与所述专有词语对应的拼音;以及
第二确定单元,用于根据所述专有词语对应的拼音中包含的声母和韵母确定所述专有词语对应的音素。
10.一种构建专有发音词典的装置,其特征在于,包括:
处理器;以及
存储器,与所述处理器连接,用于为所述处理器提供处理以下处理步骤的指令:
获取语音信息,所述语音信息用于记录与特定专业相关的语音音频;
根据预定算法确定与所述语音信息对应的文本信息;
将所述文本信息与通用词典进行匹配,从所述文本信息中确定所述通用词典未收录的词语;
从所述未收录的词语中确定用于构建专有发音词典的专有词语;以及
将所述专有词语追加到所述通用词典,构建所述专有发音词典。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京中关村科金技术有限公司,未经北京中关村科金技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910678978.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种量子点发光二极管及其制备方法
- 下一篇:一种相机外参标定的方法及装置