[发明专利]一种网络视频终端聚合方法及系统有效
申请号: | 201310166163.2 | 申请日: | 2013-05-08 |
公开(公告)号: | CN104144181B | 公开(公告)日: | 2017-12-29 |
发明(设计)人: | 张辉;李长路;孙鹏;潘梁 | 申请(专利权)人: | 中国科学院声学研究所;北京海力汇通数字系统技术有限公司 |
主分类号: | H04L29/08 | 分类号: | H04L29/08;G06F17/30 |
代理公司: | 北京法思腾知识产权代理有限公司11318 | 代理人: | 杨小蓉,杨林 |
地址: | 100190 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 网络 视频 终端 聚合 方法 系统 | ||
1.一种网络视频终端聚合方法,所述方法包含:
步骤101)通过订阅指定网络视频聚合的源;
步骤102)利用爬虫从订阅网站提取网络视频元数据;
步骤103)将本地播放记录和本地视频信息存储在本地数据库;
步骤104)对本地数据库数据进行预处理,以适应兴趣挖掘需要,其中,所述预处理是对数据库中存储的视频信息逐条过滤,剔除无效信息记录,选取符合条件的数据用于兴趣挖掘;
步骤105)根据本地数据库,挖掘用户多维兴趣主题,所述本地数据库以一定的数据结构存储若干条视频元数据描述,这些视频对象包括本地存储的视频文件,以及用户播放记录中的视频;
步骤106)根据网络视频与用户兴趣的匹配程度对网络视频进行过滤排序,所述匹配过滤依次将每一条网络视频描述信息与兴趣主题匹配,过滤并保留匹配程度高于阈值的结果,并排序;
步骤107)显示经过滤、排序而得的网络视频列表。
2.根据权利要求1所述的网络视频终端聚合方法,其特征在于,所述网络视频元数据包括:视频名、视频源地址、年份、导演、演员或类型,将所有元数据形成网络视频的多维描述信息。
3.根据权利要求1所述的网络视频终端聚合方法,其特征在于,所述指定视频聚合源的网站是一个或多个视频网站的首页网址。
4.根据权利要求1所述的网络视频终端聚合方法,其特征在于,所述爬虫模块以订阅模块指定的一个或多个网页为初始页面,提取视频元数据,为每一个视频生成一条元数据描述,并嵌套地对其包含的二级页面逐一遍历,以获取符合条件的视频元数;同时,获取元数据的方式还可选地包括直接收割网站按一定规范发布的视频信息。
5.根据权利要求1所述的网络视频终端聚合方法,其特征在于,所述多维兴趣主题即为在两个或两个以上维度进行描述的兴趣主题,其基础为,每一条视频信息都由多个维度的描述信息组成。
6.根据权利要求1所述的网络视频终端聚合方法,其特征在于,所述多维兴趣主题的提取分为以下步骤:
a、一维兴趣提取:对每一个拟挖掘的维度采取独立的兴趣挖掘策略和标准,得到该维度上的若干兴趣主题,成为一个集合;
b、二维兴趣提取:在不同维度间,若两个兴趣主题同时出现在一条多维信息中,则这两个兴趣主题有关联;同时出现越多,关联越大;把关联度大过阈值的组合在一起,成为一个二维兴趣主题,采用同样的方法找出所有的二维兴趣主题;
c、多维兴趣提取:若某维度上的主题出现在两个多维主题中,检查是否这两个多维主题中每个一维主题间都存在超过阈值的关联程度,若是,则合并这两个多维主题,成为更高维度的兴趣主题;
d、记录所有不能进一步合并的多维兴趣主题。
7.一种网络视频终端聚合系统,其特征在于,所述系统包含:
订阅模块,用于指定网络视频聚合的源;
爬虫模块,用于从订阅模块获得的网络视频聚合源的网站提取网络视频元数据;
本地数据库模块,用于存储本地播放记录和本地视频信息;
预处理模块,用于对本地数据库数据进行预处理,以适应兴趣挖掘需要;
兴趣挖掘模块,用于根据本地数据库依据如下原则进行一维至多维的兴趣提取:
一维兴趣提取:对每一个拟挖掘的维度采取独立的兴趣挖掘策略和标准,得到该维度上的若干兴趣主题,成为一个集合;
二维兴趣提取:在不同维度间,若两个兴趣主题同时出现在一条多维信息中,则这两个兴趣主题有关联;同时出现越多,关联越大;把关联度大过阈值的链接在一起,成为一个二维兴趣主题,依据此策略找到所有二维兴趣主题;
多维兴趣提取:若某维度上的主题出现在两个多维主题中,检查是否这两个多维主题中每个一维主题间都存在超过阈值的关联程度,若是,则合并这两个多维主题,成为更高维度的兴趣主题;记录所有不能进一步合并的多维兴趣主题,完成兴趣挖掘;
匹配过滤模块,用于根据网络视频与用户兴趣的匹配程度对网络视频进行过滤排序;
显示模块,用于显示经过滤、排序而得的网络视频列表。
8.根据权利要求7所述的网络视频终端聚合系统,其特征在于,所述订阅模块允许用户指定一个或多个视频网站网址作为视频信息聚合的源,被指定网址的页面及其引用的二级页面包含的视频都包含在后续聚合范围内,并且能够指定视频网站的首页。
9.根据权利要求7所述的网络视频终端聚合系统,其特征在于,所述爬虫模块在订阅范围内的页面上提取视频元数据,或者直接收割网站按一定规范发布的视频信息,并将同属于一个视频的元数据按照数据结构整理为一条描述网络视频的信息,且该模块对每个页面的二级页面嵌套地抓取元数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院声学研究所;北京海力汇通数字系统技术有限公司,未经中国科学院声学研究所;北京海力汇通数字系统技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310166163.2/1.html,转载请声明来源钻瓜专利网。