[发明专利]基于关键特征的大规模编目模版迁移方法及系统在审
申请号: | 201310628448.3 | 申请日: | 2013-11-29 |
公开(公告)号: | CN103699575A | 公开(公告)日: | 2014-04-02 |
发明(设计)人: | 陈鑫玮;徐波 | 申请(专利权)人: | 北京中科模识科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 李迪 |
地址: | 100190 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 关键 特征 大规模 编目 模版 迁移 方法 系统 | ||
技术领域
本发明涉及计算机编目技术领域,特别涉及一种基于关键特征的大规模编目模版迁移方法及系统。
背景技术
传统的迁移办法一般为人工导入,在导入的过程中尽量从文本内容避开相同重复模版的可能性,这种迁移方法一般需要耗费很大的人工量,并且难免会有重复,因为存在大量文本描述不同,但音视频内容却一致的编目模版。
发明内容
(一)要解决的技术问题
本发明所要解决的技术问题是:如何提供一种基于关键特征的大规模编目模版迁移技术和方法,充分利用计算机音视频关键特征比对技术,实现在少量人工参与的情况下,计算机自动对大规模的编目模版进行迁移案。
(二)技术方案
为解决上述问题,本发明提供一种基于关键特征的大规模编目模版迁移方法,包括步骤:S1、分别从待迁移的编目模版库与目标编目模版库中获取音视频模版,两两基于音视频的关键特征进行音视频内容的比对;S2、经过音视频内容的比对,若待迁移的模版在目标库中已存在,即在目标库中存在完全相同音视频内容的编目模版,那么计算机自动将该模版丢弃,不予迁移;若待迁移的模版在目标库中不存在,即在目标库中找不到与其音视频内容相同或部分相同的编目模版,则计算机自动将该模版迁移到目标编目模版库中;若在目标库中找到有部分音视频内容与待迁移的编目模版相同时,则自动将其标记分组,同时转入步骤S3;S3、由处理分组好的编目模版,即有音视频内容部分重叠的模版组,根据具体的业务需要,排除无效的编目模版,剩余的有效编目模版计算机将自动迁移入目标编目模版库。
本发明还提供一种基于关键特征的大规模编目模版迁移系统,包括:音视频关键特征比对模块,通过该模块,计算机自动抽取待迁移模版与目标库中的已有模版中的音视频关键特征,并对模版中的音视频内容进行自动比对;编目模版分组模块,通过该模块,计算机自动根据模版关键特征的比对结果对待迁移的模版进行分组,将其分为:完全相同、完全不同、部分相同3组模版,并进行标识;人工审核界面模块,该模块提供人机交互界面,人工可通过该界面对与目标库中模版部分相同的待迁移模版进行审核,人工可回放待迁移模版与目标库中模版相同部分的音视频,根据不同的业务需要,决定该待迁移模版是否为有效模版,即是否该迁移入库;编目模版迁移模块,通过该模块,计算机自动汇总有效的新的待迁移模版,并将模版所对应的音视频文件,以及文本描述信息入目标库。
优选地,所述音视频关键特征比对模块的工作流程包括:a、获取待迁移模版中的音频信号,进行预处理,即提取功率谱并计算子带能量,建立能量直方图,得到音频指纹,即音频关键特征;b、获取目标模版库中模版的音频信号,进行预处理,即加窗提取功率谱,并计算子带能量,建立能量直方图,得到音频关键特征;c、根据两个模版的音频关键特征,进行模版比对,计算两个模版的相似度,最后根据人工预设的门限值,决策该两个模版是否相同、部分相同或完全不同。
优选地,所述编目模版分组模块的工作流程包括:自动将完全相同的待迁移模版丢弃,完全不同的模版即为新模版,自动传送给编目模版迁移模块进行迁移入目标库,而对于部分相同的模版则传送给人工审核界面模块。
优选地,所述人工审核界面模块的工作流程包括:人工可通过该界面对待迁移模版进行编辑裁剪为有效模版后再迁移入库。
(三)有益效果
根据本发明,能够很好地解决传统方法耗费人力、速度慢,而且容易存在重复内容的编目模版的缺点,能够在少量人工参与的情况下通过计算机自动进行编目模版的迁移,同时在迁移过程中真正避免重复模版的情况出现。
附图说明
图1为依照本发明实施例的基于关键特征的大规模编目模版迁移方法的流程示意图;
图2为依照本发明实施例的基于关键特征的大规模编目模版迁移系统的结构示意图;
图3为依照本发明实施例的音视频关键特征比对模块的工作流程示意图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
如图1所示,根据本发明实施例的基于关键特征的大规模编目模版迁移方法包含以下步骤:
步骤S1:分别从待迁移的编目模版库与目标编目模版库中获取音视频模版,两两基于音视频的关键特征进行音视频内容的比对,在本方法中,关键特征可看作是这一小段音频数据本身的一个短小的总结,通过数学函数的映射,可将数据冗余较大的音频波形空间映射到指纹空间,从而在比对过程中定位相似或相同的音频内容。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京中科模识科技有限公司,未经北京中科模识科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310628448.3/2.html,转载请声明来源钻瓜专利网。