[发明专利]一种ISP间互联口URL活跃度的统计方法及装置有效
申请号: | 201511025131.6 | 申请日: | 2015-12-30 |
公开(公告)号: | CN105677772B | 公开(公告)日: | 2019-07-09 |
发明(设计)人: | 黄友俊;李星;吴建平;段晓磊;邓斌 | 申请(专利权)人: | 赛尔网络有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/36;G06F16/332;G06F16/958 |
代理公司: | 中科专利商标代理有限责任公司 11021 | 代理人: | 宋焰琴 |
地址: | 100084 北京市海淀区中*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种ISP间互联口URL活跃度统计方法及装置,所述方法包括:步骤1、收集预定时间周期内被访问的URL网页数据,对预定时间周期内点击访问的URL网页的被访问次数进行统计,获得访问次数排名靠前的预定数量的高活跃度URL及访问时间长度;步骤2、对所述预定数量的URL中新出现的URL网页的内容进行内容特征词的查找,与预先建立的特征词数据库中的特征词进行比对,划分该URL网页的内容特征方向以及内容权重并存储;步骤3、对所述高活跃度URL,依据其访问次数、内容特征方向和访问时间长度进行加权平均分析,得到每个URL的活跃度指数UAI;步骤4、利用所述活跃度指数UAI对所述URL的活跃度进行排名。 | ||
搜索关键词: | 一种 isp 间互联口 url 活跃 统计 方法 装置 | ||
【主权项】:
1.一种ISP间互联口URL活跃度统计方法,包括步骤1、收集预定时间周期内被访问的URL网页数据,对预定时间周期内点击访问的URL网页的被访问次数进行统计,获得访问次数排名靠前的预定数量的高活跃度URL及访问时间长度;步骤2、对所述预定数量的URL中新出现的URL网页的内容进行内容特征词的查找,与预先建立的特征词数据库中的特征词进行比对,划分该URL网页的内容特征方向以及内容权重并存储;步骤3、对所述高活跃度URL,依据其访问次数、内容特征方向和访问时间长度进行加权平均分析,得到每个URL的活跃度指数UAI;步骤4、利用所述活跃度指数UAI对所述URL的活跃度进行排名;其中,步骤2还包括:步骤201、对所述新出现的URL网页的内容进行文本分词;步骤202、对所得到的文本分词进行特征向量计算,所述特征向量用于体现分词后独立词出现的频率;其中,分词处理输出的结果,通过构建正则表达式方式,去掉常用感叹词,副词,余下的则用来表征网页文本特征向量,特征向量如下公式所示:docj={<tj1,wj1><tj2,wj2>,...,<tjn,wjn>}其中tji是网页j中出现的第i个词,wji是词tji在网页中的权值,定义为tji在网页中出现的频率函数;高维文本向量先进行特征选择;经特征选择降维后的文本特征集中包含完全性和区分性,完全性体现文本内容和主题,区分性能实现文本之间的区分;步骤203、根据所述特征向量确定独立词的频率高于预定阈值的分词,利用其特征向量将所述新出现的URL网页划分至预先定义好的URL类别中;该方法还包括,根据业务研究URL内容的方向,调整特征词数据库中特征词的权重,获得倾向于研究方向的URL网页活跃度排名。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于赛尔网络有限公司,未经赛尔网络有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201511025131.6/,转载请声明来源钻瓜专利网。