[发明专利]一种网页连接识别方法、装置及存储介质有效
申请号: | 201910743292.0 | 申请日: | 2019-08-13 |
公开(公告)号: | CN112395527B | 公开(公告)日: | 2022-07-08 |
发明(设计)人: | 汪景福;吴晶晶;万明月;冯少伟 | 申请(专利权)人: | 腾讯科技(武汉)有限公司 |
主分类号: | G06F16/957 | 分类号: | G06F16/957;G06F16/44 |
代理公司: | 深圳翼盛智成知识产权事务所(普通合伙) 44300 | 代理人: | 黄威 |
地址: | 430000 湖北省武*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 网页 连接 识别 方法 装置 存储 介质 | ||
1.一种网页连接识别方法,其特征在于,包括:
获取目标多媒体的信息及多媒体站点的信息;
根据所述获取的信息,获取所述多媒体站点提供的基于所述目标多媒体的网页中,待识别的网页连接接口的结构布局信息;
提取所述结构布局信息的第一特征信息;
根据所述第一特征信息及预置的特征模型,对所述待识别的网页连接接口中用于展示所述目标多媒体的网页连接接口进行识别,所述预置的特征模型包括所述多媒体站点提供的基于目标多媒体的网页中用于展示所述目标多媒体的网页连接接口的特征。
2.如权利要求1所述的方法,其特征在于,所述根据所述获取的信息,获取所述多媒体站点提供的基于所述目标多媒体的网页中,待识别的网页连接接口的结构布局信息,具体包括:
根据所述多媒体站点的信息,调用所述多媒体站点提供的搜索接口;
通过所述搜索接口搜索所述目标多媒体的信息,获取所述多媒体站点提供的基于目标多媒体的网页信息;
从所述基于目标多媒体的网页信息中提取待识别的网页连接接口的结构布局信息。
3.如权利要求2所述的方法,其特征在于,所述结构布局信息包括所述网页连接接口在所述基于目标多媒体的网页中的位置信息。
4.如权利要求2所述的方法,其特征在于,所述从所述基于目标多媒体的网页信息中提取待识别的网页连接接口的结构布局信息,具体包括:
从所述基于目标多媒体的网页信息中提取所有的网页连接接口的结构布局信息;
对所述所有的网页连接接口的结构布局信息进行过滤,将过滤后的网页连接接口的结构布局信息作为待识别的网页连接接口的结构布局信息。
5.如权利要求1至4任一项所述的方法,其特征在于,所述根据所述第一特征信息及预置的特征模型,对所述待识别的网页连接接口中用于展示所述目标多媒体的网页连接接口进行识别,具体包括:
计算所述第一特征信息与所述多媒体站点对应的特征模型之间的相似度,如果某一待识别的网页连接接口的结构布局信息的第一特征信息,与所述多媒体站点对应的特征模型之间的相似度大于某一阈值,确定所述某一待识别的网页连接接口为用于展示所述目标多媒体的网页连接接口。
6.如权利要求1至4任一项所述的方法,其特征在于,所述方法还包括:
如果某一待识别的网页连接接口为用于展示所述目标多媒体的网页连接接口,则将所述某一待识别的网页连接接口的结构布局信息的第一特征信息,与预置的所述多媒体站点对应的特征模型进行融合,形成融合后的多媒体站点对应的特征模型。
7.如权利要求1至4任一项所述的方法,其特征在于,所述方法还包括:
获取所述多媒体站点提供的多个样本多媒体的网页中,多个样本网页连接接口的结构布局信息;
提取所述多个样本网页连接接口的结构布局信息分别对应的第一样本特征信息;
根据所述第一样本特征信息进行聚类;
根据所述聚类的结果确定所述多媒体站点的特征模型。
8.如权利要求7所述的方法,其特征在于,所述多个样本多媒体的网页为剧集类多媒体的网页。
9.如权利要求8所述的方法,其特征在于,所述根据所述第一样本特征信息进行聚类,具体包括:
提取所述多个样本网页连接接口对应的网页地址信息的第二样本特征信息;将所述第一样本特征信息与相应的第二样本特征信息进行拼接后,得到拼接后样本特征;
对所述拼接后样本特征信息进行聚类。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(武汉)有限公司,未经腾讯科技(武汉)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910743292.0/1.html,转载请声明来源钻瓜专利网。