[发明专利]语音文件检索方法及系统有效
申请号: | 201510882391.9 | 申请日: | 2015-11-30 |
公开(公告)号: | CN105551485B | 公开(公告)日: | 2020-04-21 |
发明(设计)人: | 王建社;柳林;冯翔;胡国平 | 申请(专利权)人: | 讯飞智元信息科技有限公司 |
主分类号: | G10L15/08 | 分类号: | G10L15/08;G10L15/16;G06F16/683;G06F16/33 |
代理公司: | 北京维澳专利代理有限公司 11252 | 代理人: | 刘路尧;逢京喜 |
地址: | 230088 安徽省合肥市高*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 文件 检索 方法 系统 | ||
本发明公开了一种语音文件检索方法及系统,该方法包括:训练对应检索关键词的用户兴趣模型;获取待检索的各语音文件;对所述语音文件进行语音转写,得到转写结果;根据所述转写结果获得所述语音文件对应的文本文件及所述文本文件中各词的多知识源特征;利用所述多知识源特征对各词进行置信度重估,并滤除所述文本文件中无意义的词句;根据置信度重估结果计算各文本文件与所述用户兴趣模型的相关度;根据所述相关度展示检索出的语音文件。利用本发明,可以提高语音文件检索效率及准确性。
技术领域
本发明涉及语音信号处理领域,具体涉及一种语音文件检索方法及系统。
背景技术
随着语音处理技术的不断发展,在越来越多的应用中,相关技术人员已尝试从语音数据中获取所需信息,如从海量语音数据中检索出特定应用场景所需的语音文件。传统的从大量语音文件中检索出有用文件的做法主要有两种:
第一种是人工进行语音文件监听,进而找出相关性较高、有用的文件,而这种方法需要耗费大量的人力和物力,效率较低。
第二种是先将语音文件进行转写,得到文本文件,然后对文本文件进行检索。由于受复杂的噪声环境、远场等因素的影响,语音转写的正确率还不能较好的保证,因而在进行语音文件检索时,为保证检索的准确性,通常都需要对语音转写的结果进行人工校验,因而同样存在人力消耗大、效率低的问题。
发明内容
本发明提供一种语音文件检索方法及系统,以解决现有语音文件检索时由于语音转写错误导致的效率低、准确性差的问题。
为此,本发明提供如下技术方案:
一种语音文件检索方法,包括:
训练对应检索关键词的用户兴趣模型;
获取待检索的各语音文件;
对所述语音文件进行语音转写,得到转写结果;
根据所述转写结果获得所述语音文件对应的文本文件及所述文本文件中各词的多知识源特征;
利用所述多知识源特征对各词进行置信度重估,并滤除所述文本文件中无意义的词句;
根据置信度重估结果计算各文本文件与所述用户兴趣模型的相关度;
根据所述相关度展示检索出的语音文件信息。
优选地,所述检索关键词是用户在检索时输入的一个或多个检索关键词,或者是预先从一些特定情景语料中搜集得到的一个或多个关键词。
优选地,所述训练对应检索关键词的用户兴趣模型包括:
收集包含所述检索关键词的语料;
计算所述语料中各词的词向量;
利用所述词向量训练回归模型,将所述回归模型作为用户兴趣模型。
优选地,所述转写结果为词级混淆网络格式,所述混淆网络中保存有每个词在语音文件中的时间位置、声学模型得分、语言模型得分和原始置信度;
所述多知识源特征包括以下特征中的至少两种:词后验概率;竞争词的后验概率差;语言模型得分;帧平均声学模型得分。
优选地,所述方法还包括:
对所述混淆网络中的各词进行切分,得到该词对应的音素信息;
所述多知识源特征还包括以下任意一种或多种:各词对应的音素后验概率、状态帧方差;词位置系数;词长;是否为停止词;时长;竞争词个数;短时平均能量。
优选地,所述对所述文本文件中各词进行置信度评估包括:
根据所述多知识源特征为各词生成一组多维特征向量;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于讯飞智元信息科技有限公司,未经讯飞智元信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510882391.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种160℃电机引流电缆
- 下一篇:语音数据的韵律标注方法及装置