[发明专利]基于嵌入式环境下的中文大词汇量语音查询方法有效
申请号: | 200810115269.9 | 申请日: | 2008-06-20 |
公开(公告)号: | CN101290768A | 公开(公告)日: | 2008-10-22 |
发明(设计)人: | 杨殿阁;连小珉;张涛;刘旺;李克强;罗禹贡;郑四发;王建强 | 申请(专利权)人: | 清华大学 |
主分类号: | G10L15/08 | 分类号: | G10L15/08;G10L15/10;G10L15/04 |
代理公司: | 北京清亦华知识产权代理事务所 | 代理人: | 廖元秋 |
地址: | 1000*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及基于嵌入式环境下的中文大词汇量语音查询方法,属于信息技术中的语音查询领域,该方法包括:生成语音识别引擎所用的无音调音节表;并生成音节相似度表;实时监测输入的语音信号,提取出用户表达词汇内容的连续的词汇语音信号;将连续的词汇语音信号切分为多个单音节的词汇语音;从中文大词汇量词库中提取出长度大于等于所述词汇语音音节个数的所有词汇,并构成等长词库;计算所述词汇语音与等长词库中所有词汇的匹配度;将计算的匹配度按从大到小排序,选出最终的查询结果。本发明在保证较高识别准确率的情况下使查询功能突破了语音识别引擎本身的词库数量限制,使它能够完成本身所不具有的中文大词汇量语音查询功能。 | ||
搜索关键词: | 基于 嵌入式 环境 中文 词汇量 语音 查询 方法 | ||
【主权项】:
1、一种基于嵌入式环境的中文大词汇量语音查询方法,其特征在于,该方法包括:1)生成语音识别引擎所用的中小词汇量词库,该词库由无音调音节表构成;2)利用语音识别引擎对无音调音节表中单个音节进行识别,根据识别结果计算该音节与无音调音节表中其他音节的相似度,并生成音节相似度表;3)实时监测输入的语音信号,利用语音活动检测算法判断输入词汇语音的起始点和终止点,从而完整地提取出用户表达词汇内容的连续的词汇语音信号;4)将连续的词汇语音信号切分为多个单音节的词汇语音;5)从中文大词汇量词库中提取出长度大于等于所述词汇语音的音节个数的所有词汇,并截去该词汇尾部大于所述音节个数的音节,使该词汇音节个数与词汇语音的音节个数相同,构成等长词库;6)利用语音识别引擎对词汇语音的音节进行识别,根据识别结果计算所述词汇语音与等长词库中所有词汇的匹配度;7)将步骤6)计算的匹配度按从大到小排序,选出排在前面的多个词汇即为最终的查询结果。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/200810115269.9/,转载请声明来源钻瓜专利网。