[发明专利]一种网络短视频信息收集方法及装置在审
申请号: | 202210417762.6 | 申请日: | 2022-04-20 |
公开(公告)号: | CN114896540A | 公开(公告)日: | 2022-08-12 |
发明(设计)人: | 刘怀亮;熊帅;杨斌;赵舰波 | 申请(专利权)人: | 乐知未来科技(深圳)有限公司 |
主分类号: | G06F16/958 | 分类号: | G06F16/958;G06F16/28;G06F40/154 |
代理公司: | 西安嘉思特知识产权代理事务所(普通合伙) 61230 | 代理人: | 辛菲 |
地址: | 518129 广东省深圳市龙*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 网络 视频 信息 收集 方法 装置 | ||
本发明提供的一种网络短视频信息收集方法及装置,通过根据节点信息判断目标节点是否为全局唯一节点;如果目标节点是全局唯一节点,则将初始路径进行精简,以形成表示目标节点的节点信息的最终路径;如果目标节点不是全局唯一节点,则在初始路径上确定全局唯一节点;将全局唯一节点至目标节点的节点信息按照层级组成最终路径。本发明通过精炼路径的方式,降低网页结构改变对目标节点的影响,从而按照最终路径获取目标信息对应的目标数据进行存储,降低获取目标数据的出错概率,且可以降低网络结构改变为目标数据获取的影响概率。
技术领域
本发明属于视频处理技术领域,涉及一种网络短视频信息收集方法及装置。
背景技术
随着互联网的普及,短视频已随处可见,但数量众多的短视频让人眼花缭乱,而对网络短视频进行有效的归类整理是网络开发者经常需要研究的问题。对短视频进行归类整理,可以使用户从杂乱无章的信息中解脱出来,实现精准匹配,从而向用户推送感兴趣的视频而剔除无关不感兴趣的视频。同时短视频还需按照法规进行审核,以剔除不合法规的有害视频。而对网络短视频进行有效归类之前需要进行短视频收集。
短视频可以通过人工在短视频网站下载视频,复制视频的标题、描述、观看数、点赞数、转发数、评论数等视频信息实现收集目的,当然也可以使用自动工具进行获取的。人工方式收集不但效率低下,且成本较高。而自动工具收集需要提前设定好视频的具体信息,如此得到的视频无法精确到指定字段,需要人工再次提取。
参考图1所示,现有技术中通过Xpath对网络视频进行定位,以得到数据。在图1中的树型结构,沿着箭头方向有多条路线,而Xpath即使用路径表达式来选取HTML文档中的节点或者节点集,从根节点出发,比如目标数据在article节点处,则沿着/html/body/main/article这条路径找到该数据。然而路径表达式和常规的电脑文件系统中看到的表达式非常相似。存在的问题一旦当网页结构发生改变后,比如网页在main节点和article节点间新增加了一个div节点,则新的路径变成了/html/body/main/div/article,如此无法定位到具体数据,传统的xpath路径定位方法时效性和通用性较低。
发明内容
为了解决现有技术中存在的上述问题,本发明提供一种网络短视频信息收集方法及装置。本发明要解决的技术问题通过以下技术方案实现:
第一方面,本发明提供的一种网络短视频信息收集方法包括:
以脚本方式获取网络短视频的HTML网页文档以及获取待查找的目标信息;
将网页文档转化为DOM树结构;
使用xpath定位方法,在DOM树结构中定位包含目标信息的目标节点,得到根节点到目标节点的初始路径;
其中,初始路径由节点名称按照根节点至目标节点的层级依次组成;
根据节点信息,判断目标节点是否为全局唯一节点;
如果目标节点是全局唯一节点,则将初始路径进行精简,以形成表示目标节点的节点信息的最终路径;
如果目标节点不是全局唯一节点,则在初始路径上确定全局唯一节点;
将全局唯一节点至目标节点的节点信息按照层级组成最终路径;
按照最终路径获取目标信息对应的目标数据进行存储。
可选的,根据节点信息,判断目标节点是否为全局唯一节点包括:
判断目标节点的节点信息是否与其他节点是否存在部分或者全部相同;
如果存在部分或全部相同,则目标节点不为全局唯一节点;
如果目标节点的节点信息与其他节点的完全不同,则目标节点为全局唯一节点。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于乐知未来科技(深圳)有限公司,未经乐知未来科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210417762.6/2.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置