[发明专利]一种ISP间互联口URL活跃度的统计方法及装置有效

专利信息
申请号: 201511025131.6 申请日: 2015-12-30
公开(公告)号: CN105677772B 公开(公告)日: 2019-07-09
发明(设计)人: 黄友俊;李星;吴建平;段晓磊;邓斌 申请(专利权)人: 赛尔网络有限公司
主分类号: G06F16/35 分类号: G06F16/35;G06F16/36;G06F16/332;G06F16/958
代理公司: 中科专利商标代理有限责任公司 11021 代理人: 宋焰琴
地址: 100084 北京市海淀区中*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种ISP间互联口URL活跃度统计方法及装置,所述方法包括:步骤1、收集预定时间周期内被访问的URL网页数据,对预定时间周期内点击访问的URL网页的被访问次数进行统计,获得访问次数排名靠前的预定数量的高活跃度URL及访问时间长度;步骤2、对所述预定数量的URL中新出现的URL网页的内容进行内容特征词的查找,与预先建立的特征词数据库中的特征词进行比对,划分该URL网页的内容特征方向以及内容权重并存储;步骤3、对所述高活跃度URL,依据其访问次数、内容特征方向和访问时间长度进行加权平均分析,得到每个URL的活跃度指数UAI;步骤4、利用所述活跃度指数UAI对所述URL的活跃度进行排名。
搜索关键词: 一种 isp 间互联口 url 活跃 统计 方法 装置
【主权项】:
1.一种ISP间互联口URL活跃度统计方法,包括步骤1、收集预定时间周期内被访问的URL网页数据,对预定时间周期内点击访问的URL网页的被访问次数进行统计,获得访问次数排名靠前的预定数量的高活跃度URL及访问时间长度;步骤2、对所述预定数量的URL中新出现的URL网页的内容进行内容特征词的查找,与预先建立的特征词数据库中的特征词进行比对,划分该URL网页的内容特征方向以及内容权重并存储;步骤3、对所述高活跃度URL,依据其访问次数、内容特征方向和访问时间长度进行加权平均分析,得到每个URL的活跃度指数UAI;步骤4、利用所述活跃度指数UAI对所述URL的活跃度进行排名;其中,步骤2还包括:步骤201、对所述新出现的URL网页的内容进行文本分词;步骤202、对所得到的文本分词进行特征向量计算,所述特征向量用于体现分词后独立词出现的频率;其中,分词处理输出的结果,通过构建正则表达式方式,去掉常用感叹词,副词,余下的则用来表征网页文本特征向量,特征向量如下公式所示:docj={<tj1,wj1><tj2,wj2>,...,<tjn,wjn>}其中tji是网页j中出现的第i个词,wji是词tji在网页中的权值,定义为tji在网页中出现的频率函数;高维文本向量先进行特征选择;经特征选择降维后的文本特征集中包含完全性和区分性,完全性体现文本内容和主题,区分性能实现文本之间的区分;步骤203、根据所述特征向量确定独立词的频率高于预定阈值的分词,利用其特征向量将所述新出现的URL网页划分至预先定义好的URL类别中;该方法还包括,根据业务研究URL内容的方向,调整特征词数据库中特征词的权重,获得倾向于研究方向的URL网页活跃度排名。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于赛尔网络有限公司,未经赛尔网络有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201511025131.6/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top