[发明专利]一种云存储环境下中文语音密文存储、检索方法及系统在审
申请号: | 202011138829.X | 申请日: | 2020-10-22 |
公开(公告)号: | CN112233666A | 公开(公告)日: | 2021-01-15 |
发明(设计)人: | 陈驰;韦馨蕾;田雪;王佳宁;苏帅 | 申请(专利权)人: | 中国科学院信息工程研究所 |
主分类号: | G10L15/06 | 分类号: | G10L15/06;G10L15/14;G10L15/183;G10L15/22;G10L15/26;H04L9/06;H04L29/06;H04L29/08;G06F16/683 |
代理公司: | 北京君尚知识产权代理有限公司 11200 | 代理人: | 余长江 |
地址: | 100093 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 存储 环境 中文 语音 文存 检索 方法 系统 | ||
1.一种云存储环境下中文语音密文存储方法,适用于云服务端、服务端及用户端组成的网络系统,其步骤包括:
1)接收并识别用户端发送的语音文件,生成识别文本文件;
2)获取所述识别文本文件的关键字,并对所述语音文件与关键字加密,生成语音文件的密文数据及密文索引;
3)将语音文件的密文数据及密文索引上传至相应云服务器端,使相应云服务器端存储语音文件的密文数据及密文索引。
2.如权利要求1所述的方法,其特征在于,将所述语言文件输入一训练好的识别网络,生成识别文本文件;其中,通过以下步骤得到所述训练好的识别网络:
1)取样本语音数据集,将提取的各样本语音数据声学特征输入一声学模型,得到预训练声学模型;
2)取样本文本数据集,将各样本文本数据输入一语言模型,得到预训练语言模型;
3)各样本语音数据输入一由所述预训练声学模型、预训练语言模型及字典组成的识别网络,通过搜索算法在该识别网络中寻找最佳的一条路径,以最大概率输出该语音信号的词串为目标,训练所述识别网络,得到训练好的识别网络。
3.如权利要求2所述的方法,其特征在于,所述语言模型包括:统计语言模型或N-gram语言模型。
4.如权利要求2所述的方法,其特征在于,所述声学模型包括:HMM声学模型。
5.如权利要求1所述的方法,其特征在于,通过以下步骤得到关键字:
1)对识别文本文件进行预处理;
2)采用分词系统对预处理后的识别文本文件进行分词处理,得到关键字。
6.如权利要求5所述的方法,其特征在于,所述预处理包括:去除冗余字段、停用词和标点符号。
7.如权利要求1所述的方法,其特征在于,通过以下步骤得到密文索引:
1)对各关键字进行分析,获取关键字的评分;
2)通过用户密钥与加密算法加密索引中的关键字加密,得到密文关键字;
3)依据关键字的评分,对密文关键字进行整理,得到密文索引。
8.一种云存储环境下中文语音密文检索方法,适用于云服务端、服务端及用户端组成的网络系统,其步骤包括:
1)接收用户端的查询关键字,并对查询关键字进行加密;
2)根据加密结果,生成查询请求,并将所述查询请求发送至相应云服务端,以使相应云服务端通过所述查询请求及通过以上方法得到的密文索引,获取密文数据;
3)接收云服务端发送的密文数据,并将所述密文数据返回至用户端,以使用户端通过用户密钥对所述密文数据解密,得到相应的音频文件。
9.如权利要求8所述的方法,其特征在于,加密结果包括:查询关键字的哈希计算结果。
10.一种云存储环境下中文语音密文检索系统,包括:
用户端,用以生成语音文件;生成查询关键字;通过用户密钥对密文数据解密,得到相应的音频文件;
服务端,用以接收并识别用户端发送的语音文件,生成识别文本文件;获取识别文本文件的关键字,并对语音文件与关键字加密,生成语音文件的密文数据及密文索引;将语音文件的密文数据及密文索引上传至相应云服务器端;接收用户端的查询关键字,并对查询关键字进行加密;根据加密结果,生成查询请求,并将查询请求发送至相应云服务端;接收云服务端发送的密文数据,并将密文数据返回至客户端;
云服务端,用以存储语音文件的密文数据及密文索引;通过密文查询请求及密文索引,获取密文数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院信息工程研究所,未经中国科学院信息工程研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011138829.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种大型锅炉管道自动焊接装置
- 下一篇:一种集成式电机液压制动器