[发明专利]语音库构建方法、识别方法、构建系统和识别系统在审
申请号: | 202110903011.0 | 申请日: | 2021-08-06 |
公开(公告)号: | CN113611284A | 公开(公告)日: | 2021-11-05 |
发明(设计)人: | 高天峰 | 申请(专利权)人: | 工银科技有限公司;中国工商银行股份有限公司 |
主分类号: | G10L15/00 | 分类号: | G10L15/00;G10L15/02;G10L15/08;G10L15/26;G10L25/18;G06F16/61;G06F40/289 |
代理公司: | 中科专利商标代理有限责任公司 11021 | 代理人: | 张琛 |
地址: | 071700 河北省保定市中国(河北)自由贸易试验*** | 国省代码: | 河北;13 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 构建 方法 识别 系统 | ||
本申请提供了一种基于用户的语音库构建方法,可以应用于人工智能技术领域。所述构建方法包括:通过配置接口设置配置参数;采集用户的元语音数据;根据所述配置参数对所述用户的元语音数据进行分帧,并利用MFCC提取出所述用户的元语音数据的特征向量;通过LBG算法将所述特征向量进行码值计算,并生成码值文件,其中,所述码值文件与所述元语音数据形成映射关系;以及将所述码值文件命名,并放入语音库中。根据本申请的语音库构建方法,针对个人的语音习惯、词语使用范围进行设计,可脱离网络使用,满足区域隔离网络内监控中心语音识别的需要,有效识别个人方言,在一定程度上克服了现有技术中对网络依赖、语音库过大、个人语言识别困难的问题。
技术领域
本申请涉及人工智能领域,具体涉及语音库创建和智能识别,更具体地涉及一种基于用户的语音库构建方法、语音识别方法、构建系统、识别系统、设备、介质和程序产品。
背景技术
现有语音识别主要有在线集中通用式语音识别技术和离线语音识别技术,但由于每个用户的发音有些许差别,导致目前识别技术不能准确识别出个人方言,不具备针对个人设计的语音库。
发明内容
本申请旨在至少解决现有技术中存在的技术问题之一。
例如,本申请提供了一种基于用户的语音库构建方法,为个人离线语音识别环境提供了一种可定制地、可扩容地语音识别工具;另外,针对本申请的语音库,本申请还提供了一种语音识别方法,可作为监控场景或无键盘场景中输入技术的基础。
为了解决上述问题,本申请的第一个方面提供基于用户的语音库构建方法,包括以下步骤:
通过配置接口设置配置参数;
采集用户的元语音数据;
根据所述配置参数对所述用户的元语音数据进行分帧,并利用MFCC提取出所述用户的元语音数据的特征向量;
通过LBG算法将所述特征向量进行码值计算,并生成码值文件,其中,所述码值文件与所述元语音数据形成映射关系;以及
将所述码值文件命名,并放入语音库中。
根据本申请的语音库构建方法,针对个人的语音习惯、词语使用范围进行设计,可脱离网络使用,满足区域隔离网络内监控中心语音识别的需要,有效识别个人方言,在一定程度上克服了现有技术中对网络依赖、语音库过大、个人语言识别困难的问题。
进一步地,所述配置参数包括:
录音参数,所述录音参数用于在采集用户的元语音数据的过程中对采集的频率和采集的位数进行设置;
解析参数,所述解析参数用于在采集用户的元语音数据的过程中对每帧长度和相邻两帧的间隔长度进行设置;以及
分词参数,所述分词参数用于:根据用户的语速,设置用户的单位元语音的长度。
进一步地,在对所述用户的元语音数据进行分帧之前或之后,对所述用户的元语音数据进行端点检测。
进一步地,利用MFCC提取出所述用户的元语音数据的特征向量,包括对所述用户的元语音数据:加窗、预加重、FFT变换和梅尔频率系数计算。
进一步地,在将所述码值文件放入语音库之前,校验所述码值文件的命名和格式,
当校验成功时,将所述码值文件放入所述语音库;以及
当校验失败时,重新设置所述码值文件的命名和格式。
进一步地,所述语音库中包括多个子语音库,多个所述子语音库根据字数或/和采样的位数进行划分,所述码值文件根据生成前的字数或/和采样的位数放入对应的子语音库中,
其中,字数通过采集的位数和用户的单位元语音的长度获得。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于工银科技有限公司;中国工商银行股份有限公司,未经工银科技有限公司;中国工商银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110903011.0/2.html,转载请声明来源钻瓜专利网。