[发明专利]一种语音文件检索系统及其检索方法在审
申请号: | 201911377279.4 | 申请日: | 2019-12-27 |
公开(公告)号: | CN111161738A | 公开(公告)日: | 2020-05-15 |
发明(设计)人: | 刘鹤君;项升;高树才 | 申请(专利权)人: | 苏州欧孚网络科技股份有限公司 |
主分类号: | G10L15/26 | 分类号: | G10L15/26;G10L15/08;G06F16/68 |
代理公司: | 无锡市汇诚永信专利代理事务所(普通合伙) 32260 | 代理人: | 许云峰 |
地址: | 215000 江苏省苏州市苏州工*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 语音 文件 检索系统 及其 检索 方法 | ||
1.一种语音文件检索系统,其特征在于:包括通讯互连的语音接收模块、语音识别模块、数据记录模块、用户检索模块;
所述语音接收模块包括至少一个互联网套接字端口以及与所述套接字端口通讯连接的存储器;所述套接字端口用于接收用户发送的语音文件,所述存储器用于存储所述套接字端口接收的语音文件;
所述语音识别模块包括语音解析单元、信息提取单元,所述语音解析单元用于将语音文件解析为文本信息,所述信息提取单元用于提取所述文本信息内的特征词信息;
所述数据记录模块用以存储所述语音识别模块生成的文本信息及特征词信息;
所述用户检索模块包括互联网接口、检索单元、显示单元;所述互联网接口用于供用户输入检索词,所述检索单元用于根据检索词调用所述数据记录模块并进行数据匹配;所述显示单元用于显示所述检索单元检索的匹配结果。
2.根据权利要求1所述的检索系统,其特征在于:所述信息提取单元包括分词子单元、置信度评估子单元、信息提取子单元;所述分词子单元用于将文本信息拆分为多个词组,所述置信度评估子单元用于对所述分词子单元拆分的多个词组进行置信度评估并滤除无用词组,以得到能表征文本信息的特征词;所述信息提取子单元用于根据所述特征词调取其对应的语音文件的属性信息。
3.根据权利要求2所述的检索系统,其特征在于:所述属性信息包括语音文件的文件名称、语音文件的创建时间、特征词在语音文件中的位置。
4.根据权利要求1-3任一所述的检索系统,其特征在于:所述用户检索模块还包括同义解析单元,所述同义解析单元用于解析检索词并生成与所述检索词语义近似的同义检索词。
5.根据权利要求4所述的检索系统,其特征在于:所述检索单元还包括根据所述同义检索词调用所述数据记录模块并进行数据匹配。
6.一种语音文件的检索方法,其特征在于:包括如下步骤:S1获取用户发送的语音文件,并存储到存储器中;S2将语音文件解析为文本信息,并提取出能表征所述文本信息的特征词;S3根据特征词调取其对应的语音文件的属性信息;S4将用户提供的检索词与特征词进行数据匹配,并将匹配结果反馈给用户。
7.根据权利要求6所述的检索方法,其特征在于:S2中,提取表征所述文本信息的特征词的步骤包括:将文本信息拆分为多个词组,再对多个词组分别进行置信度评估并滤除无用词组。
8.根据权利要求6所述的检索方法,其特征在于:S3中,所述属性信息包括语音文件的文件名称、语音文件的创建时间、特征词在语音文件中的位置。
9.根据权利要求6所述的检索方法,其特征在于:所述S3、S4之间还包括对检索词进行同义解析以生成与所述检索词语义近似的同义检索词。
10.根据权利要求6所述的检索方法,其特征在于:S1中,所述语音文件通过至少一个互联网套接字端口获取。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州欧孚网络科技股份有限公司,未经苏州欧孚网络科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911377279.4/1.html,转载请声明来源钻瓜专利网。