[发明专利]基于频谱分析的信息过滤无效
申请号: | 201010144334.8 | 申请日: | 2010-04-12 |
公开(公告)号: | CN101819591A | 公开(公告)日: | 2010-09-01 |
发明(设计)人: | 张正稷;高凌翔;陈荣麒;宋魏武;凌霄;罗辉;刘觅;费翔;吴文君;伍良富;李炳法;卢国成 | 申请(专利权)人: | 张正稷 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 620860 四*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 频谱 分析 信息 过滤 | ||
技术领域
本发明专利属于网络信息检索领域,具体涉及一种提高音频文件信息搜索的精度的一种方法。
背景技术
目前搜索引擎的数据库规模和覆盖面是极其有限的。美国科学期刊Nature的一篇报告中指出,最大的搜索引擎也只能覆盖现在网页资源的16%,就是说再大的搜索引擎也不可能使检全率达到100%。而且据excite统计,只有不到1%的用户会看200条以后的结果,几乎100%的用户不会看超过1000条的结果。就是说对于大多数用户来说,检全率是次要的,而检准率则更具有意义。
日前,对于多数多媒体检索而言,不是输出的检索结果过载,记录数量达到成千上万条,给用户的相关性判断带来困难;就是零输出或输出量太少,造成过分的漏检。由于网站或网页的标引类型、标引深度、索引方法等的不规范,多数搜索引擎又不支持概念检索,因而直接影响检索词的选择、匹配和检索结果的输出格式,从而影响了检准率。
据专家测评,目前主要的搜索引擎返回的相关结果其比率不足45%。当用户键入1个关键词后,在搜索的结果中总会有70%~80%的无用信息,有时是100%的无用。在这一方面存在的主要问题是:①关键词检索输出的结果相关度排序方式单一,不能根据用户需要来选择信息输出的排序方法。②由于多媒体信息的特殊性,其名称和内容不一定相符,所以不论是关键词检索,还是主题分类检索,对于多媒体信息的检索都不能很好的保证其检准率③数据更新速度慢,更新周期长,对于网上已不存在的信息不能及时删除,因而出现死链较多,而且也不加以说明,浪费用户的宝贵时间。④互联网信息经常处于动态的变化之中,新的信息不断涌现,旧的信息不断消亡,无法及时确定检索结果中是否存留着无用的信息,就会导致成千上万条没有经过筛选与排序的记录被输出。
发明内容
1、一种运用频谱分析和随机抽样对比技术的信息过滤方法,其特征包括以下步骤:频谱分析,“模板”确立,随机抽样对比,信息筛选。
2、权利要求1所述的频谱分析,其特征包含以下步骤:
a、利用顺序表字典二分法对互联网上音频文件信息进行检索,用HITS(Hyperlink-Induced Topic Search)算法对检索后信息进行相关度排序,将前100条信息在系统内建立一张信息序列表1。该序列表将暂时保存,直到系统产生最终检索结果列表,系统会将其删除。
b、运用随机抽样算法对信息序列表前10个音频文件信息中随机选取5个音频文件信息进行频谱解析,频谱分析过程运用快速傅里叶算法。之后运用离散傅里叶变换得出最终音频数据,并暂存于系统。该数据将作为信息筛选标准候选,待标准确立后将被系统删除。
3、权利要求1所述的“模板”确立,其特征包含以下步骤:
a、运用数据对比算法对步骤2-b中音频数据进行比对,从相似度最高的三个音频数据中选取其音频数据平均值作为信息筛选标准。我们把这种作为信息筛选标准的数据定义为“模板”。我们把以后步骤中将要被“模板”对比分析的信息序列表1中的音频信息的频谱数据定义为“初选项”。“模板”作为之后步骤中音频信息筛选标准将一直保存于系统中,直到系统判定当前“模板”有误或系统产生最终检索结果列表时,将被系统删除。
b、当系统判定“模板”确立有误时,调用步骤2-b。此时系统将重新确立新的“模板”并删除错误“模板”。
4、权利要求1所述的随机抽样对比,其特征包含以下步骤:
a、当“模板”确立后,运用随机抽样算法从“模板”数据中截取3段音频频谱数据,并以此对“初选项”在相同位置的音频数据段处进行对比,此过程运用了数据对比算法。
b、系统将记录每一个对比后的“初选项”相似度数值并建立一张相似度表。该表将暂存于系统,当步骤5-a完成后将被删除。相似度数值以百分比的形式表示,相似度越高其百分比越大,“模板”相似度数值为100%。
5、权利要求1所述的信息筛选,其特征包含以下步骤:
a、设置筛选条件x(x=50%)。将x与相似度表中数据进行对比,若其数据大于x则判定为符合筛选条件,系统将从信息序列表1中复制其信息保存于信息序列表2;若其数据小于x则判定为不符合筛选条件,系统将不从信息序列表1中复制其信息。
b、当筛选完全部“初选项”后,若信息序列表2中信息数量y<10,则系统判定“模板”有误,调用3-b。系统将重新确立“模板”并进行信息筛选。若步骤2-a在只被调用一次的情况下,步骤3-b被调用达两次,则以步骤3-b最后一次被调用所确立的“模板”为标准,其对应的信息序列表2将被保存作为最终检索结果列表。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于张正稷,未经张正稷许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010144334.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:滤清器支撑弹簧
- 下一篇:一种污泥带滤机用辊筒筛过滤装置
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置