[发明专利]一种基于语音识别的媒体搜索方法及装置有效
申请号: | 201310752909.8 | 申请日: | 2013-12-31 |
公开(公告)号: | CN103761261B | 公开(公告)日: | 2017-07-28 |
发明(设计)人: | 高鹏 | 申请(专利权)人: | 北京紫冬锐意语音科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G10L15/08 |
代理公司: | 北京路浩知识产权代理有限公司11002 | 代理人: | 李迪 |
地址: | 100080 北京市海淀区中*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 语音 识别 媒体 搜索 方法 装置 | ||
技术领域
本发明涉及数据信息处理技术领域,尤其涉及一种基于语音识别的媒体搜索方法及装置。
背景技术
随着互联网和数字多媒体内容的发展,数字媒体尤其是数字视频成爆炸性增长的态势,如何对数字媒体进行快速有效的检索具有重要的应用价值。由于数字媒体是非结构化的数据,要想达到对数字媒体内容进行检索的需求,需要对数字媒体的内容进行识别,比如将音频中的语音识别为文本,视频中的字幕识别为文本,然后利用文本进行检索。
另一方面,移动互联网蓬勃发展,人与智能设备之间的交互成为重要研究方向。语音交互作为最自然方便的的一种人机交互的手段,受到了企业的重视和用户的喜爱。
语音识别技术(Automatic Speech Recognition,ASR),也被称为自动语音识别,其目标是将人类的语音中的词汇内容转换为计算机可读的输入,例如按键、二进制编码或者字符序列。与说话人识别及说话人确认不同,后者尝试识别或确认发出语音的说话人而非其中所包含的词汇内容。
语音识别技术的应用包括语音拨号、语音导航、室内设备控制、语音文档检索、简单的听写数据录入等。语音识别技术与其他自然语言处理技术如机器翻译及语音合成技术相结合,可以构建出更加复杂的应用,例如基于媒体内容和语音智能交互媒体搜索方法。
发明内容
本发明主要解决的技术问题是如何提供一种基于语音识别的媒体搜索方法及装置,实现用户通过语音对媒体内容进行更加精确的搜索。
为此目的,本发明提供了一种基于语音识别的媒体搜索方法,该方法包括以下步骤:
获取媒体的内容标引和元数据信息;
关联所述内容标引和元数据信息建立媒体知识库;
解析采集到的用户查询语音得到对应的语音识别文本;
根据所述语音识别文本对所述媒体知识库进行媒体搜索。
其中,所述获取媒体的内容标引,具体包括:
将接收到的媒体转码为统一的编码格式;
对转码后的媒体进行节目起止点的标记得到节目层的标引;
对所述节目层中的各节目进行片段的切分得到片段层的标引;
对所述片段层中的各片段进行语音识别和字幕识别得到文字层的标引。
其中,所述对所述片段层中的各片段进行语音识别和字幕识别得到文字层的标引,具体包括:
获取所述语音识别的识别路径和所述识别路径对应的语音识别文本;
获取所述字幕识别的识别路径和所述识别路径对应的字幕识别文本;
合并所述语音识别文本和字幕识别文本,得到文字层的标引。
其中,所述元数据信息包括但不限于媒体的导演、人物、主题名、类型、地域和语言。
其中,所述解析采集到的用户查询语音得到对应的语音识别文本,具体包括:
接收用户查询语音的音频信号;
将解码后的所述音频信号进行分段;
对每一段音频信号分别进行语音识别获得段识别文本;
合并每一段音频信号的所述段识别文本得到所述语音识别文本。
其中,所述根据所述语音识别文本对所述媒体知识库进行媒体搜索,具体包括:
根据预设的元数据词典提取所述语音识别文本中存在的元数据信息;
根据提取的元数据信息在所述媒体知识库中进行元数据搜索;
根据预设的关键词库提取所述语音识别文本中存在的关键词信息;
根据所述关键词信息在所述媒体知识库中进行关键词搜索;
合并所述元数据搜索的结果和所述关键词搜索的结果得到完整的搜索结果。
此外,本发明还提出一种基于语音识别的媒体搜索装置,包括:
获取模块,关联模块、解析模块和搜索模块;
获取模块,用于获取媒体的内容标引和元数据信息;
关联模块,用于关联所述获取模块获取到的内容标引和元数据信息建立媒体知识库;
解析模块,用于解析采集到的用户查询语音得到对应的语音识别文本;
搜索模块,用于根据所述语音识别文本对所述媒体知识库进行媒体搜索。
其中,所述获取模块包括:转码单元,标记单元,切分单元和识别单元;
转码单元,用于将接收到的媒体转码为统一的编码格式;
标记单元,用于对转码后的媒体进行节目起止点的标记得到节目层的标引;
切分单元,用于对所述媒体中的节目进行片段的切分得到片段层的标引;
识别单元,用于对所述节目中的片段分别进行语音识别和字幕识别得到文字层的标引。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京紫冬锐意语音科技有限公司,未经北京紫冬锐意语音科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310752909.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种车用CNG减压阀高压过滤结构
- 下一篇:一种燃机防冰冻装置的循环加热系统