[发明专利]语种无关的关键词检索方法及系统有效
申请号: | 201310554667.1 | 申请日: | 2013-11-08 |
公开(公告)号: | CN103559289B | 公开(公告)日: | 2017-01-18 |
发明(设计)人: | 刘俊华;魏思;胡国平;胡郁 | 申请(专利权)人: | 科大讯飞股份有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京维澳专利代理有限公司11252 | 代理人: | 王立民,吉海莲 |
地址: | 230088 安徽省*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语种 无关 关键词 检索 方法 系统 | ||
1.一种语种无关的关键词检索方法,其特征在于,包括:
构建关键词模型和吸收模型;
利用训练数据对所述关键词模型进行优化;
根据优化后的关键词模型和所述吸收模型构建解码网络;
对接收到的待检测语音信号,利用所述解码网络进行关键词检索;
输出检索结果。
2.根据权利要求1所述的方法,其特征在于,所述构建关键词模型包括:
确定关键词模型的拓扑结构及初始参数。
3.根据权利要求2所述的方法,其特征在于,所述利用训练数据对所述关键词模型进行优化包括:
获取语音数据的概率分布模型;
根据所述初始参数确定所述关键词模型中各状态对应的训练数据;
利用所述训练数据和所述概率分布模型对所述关键词模型进行优化。
4.根据权利要求3所述的方法,其特征在于,
所述获取语音数据的概率分布模型包括:根据大量真实数据获取语音数据的概率分布模型;
所述根据所述初始参数确定所述关键词模型中各状态对应的训练数据包括:利用所述初始参数对每个训练样本进行强制切分,得到各状态所对应的训练数据。
5.根据权利要求3所述的方法,其特征在于,所述利用所述训练数据和所述概率分布模型对所述关键词模型进行优化包括:
依次计算各状态所属数据相对于语音数据概率分布中每个高斯分量或子类的相似度,并选择设定数量的具有最大相似度的高斯分量或子类作为所述状态对应的关键词模型的先验概率分布;
利用所述状态对应的训练数据和所述先验概率分布更新所述关键词模型的参数。
6.一种语种无关的关键词检索系统,其特征在于,包括:
关键词模型构建模块,用于构建关键词模型;
吸收模型构建模块,用于构建吸收模型;
模型优化模块,用于利用训练数据对所述关键词模型进行优化;
解码网络构建模块,用于根据优化后的关键词模型和所述吸收模型构建解码网络;
检索模块,用于对接收到的待检测语音信号,利用所述解码网码进行关键词检索,并输出检索结果。
7.根据权利要求6所述的系统,其特征在于,
所述关键词模型构建模块,具体用于确定关键词模型的拓扑结构及初始参数。
8.根据权利要求7所述的系统,其特征在于,所述模型优化模块包括:
概率分布模型获取单元,用于获取语音数据的概率分布模型;
训练数据获取单元,用于根据所述初始参数确定所述关键词模型中各状态对应的训练数据;
优化单元,用于利用所述训练数据和所述概率分布模型对所述关键词模型进行优化。
9.根据权利要求8所述的系统,其特征在于,
所述概率分布模型获取单元,具体用于根据大量真实数据获取语音数据的概率分布模型;
所述训练数据获取单元,具体用于利用所述初始参数对每个训练样本进行强制切分,得到各状态所对应的训练数据。
10.根据权利要求8所述的系统,其特征在于,所述化化单元包括:
先验概率分布更新单元,用于依次计算各状态所属数据相对于语音数据概率分布中每个高斯分量或子类的相似度,并选择设定数量的具有最大相似度的高斯分量或子类作为所述状态对应的关键词模型的先验概率分布;
参数更新单元,用于利用所述状态对应的训练数据和所述先验概率分布更新所述关键词模型的参数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于科大讯飞股份有限公司,未经科大讯飞股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310554667.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:氟化抗反射涂层
- 下一篇:一种软包装金瓜丝的生产方法