[发明专利]关键词检测方法在审
申请号: | 202111189407.X | 申请日: | 2021-10-12 |
公开(公告)号: | CN113870847A | 公开(公告)日: | 2021-12-31 |
发明(设计)人: | 叶增荣;陈文鹏 | 申请(专利权)人: | 杭州捷途慧声科技有限公司 |
主分类号: | G10L15/06 | 分类号: | G10L15/06;G10L15/08 |
代理公司: | 南京普睿益思知识产权代理事务所(普通合伙) 32475 | 代理人: | 李杰 |
地址: | 310000 浙江省杭州市余杭区*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 关键词 检测 方法 | ||
1.一种关键词检测方法,其特征在于,包括以下步骤:
通过语音数据训练获得声学模型并通过文本数据训练获得语言模型;
将声学模型和语言模型通过字典进行关联获得语音模型,其中,所述语音模型的数据根据语言使用频率分别设置在常用语音数据库和备用语音数据库;
对接收到的语音进行特征提取,通过语音解码和搜索算法带入语音模型的常用语音数据库进行语音匹配计算,若匹配则输出接收到的语音所匹配的文字,若无匹配结果则带入语音模型的备用语音数据库进行语音匹配计算,若匹配则输出接收到的语音所匹配的文字,若无匹配结果则将接收到的语音信息存储至未识别语音数据库。
2.根据权利要求1所述的关键词检测方法,其特征在于,还包括以下步骤:
在输出接收到的语音所匹配的文字后同步对该文字进行计数;
基于计数对所述常用语音数据库和所述备用语音数据库进行优化,一定使用周期内,将所述备用语音数据库内的高频使用的词汇移动至所述常用语音数据库并将所述常用语音数据库内的低频使用的词汇移动至所述备用语音数据库。
3.根据权利要求2所述的关键词检测方法,其特征在于,
基于计数对所述常用语音数据库和所述备用语音数据库进行优化包括以下步骤:
对一定使用周期内的所述常用语音数据库内的数据的使用次数进行统计获取使用次数最少的N个数据;
对一定使用周期内的所述备用语音数据库内的数据的使用次数进行统计获取使用次数最多的M个数据;
将从所述常用语音数据库获取的N个数据和所述备用语音数据库获得的M个数据根据使用次数进行排序并将使用次数多的N个数据移动至所述常用语音数据库其余数据移动至所述备用语音数据库。
4.根据权利要求3所述的关键词检测方法,其特征在于,
N个数据在所述常用语音数据库内的占比小于10%。
5.根据权利要求3所述的关键词检测方法,其特征在于,
M个数据在所述备用语音数据库内的占比小于10%。
6.根据权利要求3所述的关键词检测方法,其特征在于,
N大于等于1且小于100。
7.根据权利要求3所述的关键词检测方法,其特征在于,
M大于等于1且小于100。
8.根据权利要求3所述的关键词检测方法,其特征在于,
定期将所述未识别语音数据库内的数据进行上传。
9.根据权利要求1所述的关键词检测方法,其特征在于,
通过语音数据训练获得声学模型包括以下步骤:
创建语音数据库;
进行特征提取;
进行声学模型训练;
获得声学模型。
10.根据权利要求1所述的关键词检测方法,其特征在于,
通过文本数据训练获得语言模型包括以下步骤:
创建文本数据库;
进行语言模型训练并引入加权算法获得语言模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州捷途慧声科技有限公司,未经杭州捷途慧声科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111189407.X/1.html,转载请声明来源钻瓜专利网。