[发明专利]一种多维度网页浏览行为评估方法有效

专利信息
申请号: 201710054675.8 申请日: 2017-01-24
公开(公告)号: CN106886577B 公开(公告)日: 2020-02-07
发明(设计)人: 朱全银;潘舒新;冯万利;李翔;贾笑颖;胡荣林;周泓;于柿民;赵阳;瞿学新;杨茂灿;唐海波;邵武杰 申请(专利权)人: 淮阴工学院
主分类号: G06F16/00 分类号: G06F16/00
代理公司: 32204 南京苏高专利商标事务所(普通合伙) 代理人: 梁耀文
地址: 223005 江苏省*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种多维度网页浏览行为评估方法,首先对搜狗语料库中的文本分词,以TF‑IDF作为文本特征,采用朴素贝叶斯方法对语料库进行训练得到文本训练集,将搜狗语料库中的文本折半切分,得到验证测试集,通过遍历得到最优拉普拉斯平滑参数Alpha,再爬取已浏览网页的指定文本内容,得到已浏览网页标题集,接着采用Alpha的朴素贝叶斯方法对已浏览网页标题集进行分类,得到已浏览网页分类集,并将大于阈值的网页信息加入文本训练集中,利用浏览网页时的停留时间、浏览终端等多维度数据,采用终端‑时间‑分类判别方法对网页浏览数据进行评估,得到评估结果。本发明方法有效分析了网页浏览信息,提高了网页浏览行为评估的准确度。
搜索关键词: 一种 多维 网页 浏览 行为 评估 方法
【主权项】:
1.一种多维度网页浏览行为评估方法,其特征在于,包括如下步骤:/n步骤一:对搜狗语料库中的文本分词,计算词语的词频TF和逆向文件概率IDF作为文本特征,采用朴素贝叶斯方法对语料库进行文本分类训练,得到文本训练集,对搜狗语料库中的文本折半切分,得到验证测试集,通过遍历,得到最优拉普拉斯平滑参数Alpha;/n步骤二:通过一种改进型的自适应网页爬取方法,对待处理的网页浏览数据进行标题数据的爬取,得到处理后的已浏览网页标题集;/n步骤三:对步骤二中处理后的已浏览网页标题集进行分词,得到网页标题分词集,使用步骤一中的拉普拉斯平滑参数Alpha的朴素贝叶斯方法对网页标题分词集进行分类,得到已浏览网页分类集,设置网页类型判断阈值,将大于阈值的网页标题分词集加入文本训练集中;/n步骤四:对处理后的网页分类、浏览时间、浏览终端的网页浏览数据进行预处理,采用终端-时间-分类判别方法对处理后的网页浏览数据进行评估,得到网页浏览行为评估结果;/n所述步骤二中得到处理后的已浏览网页标题集的具体方法为:/n步骤2.1:定义已浏览网页地址集、网页停用词集和已浏览网页标题集;/n步骤2.2:将已浏览网页地址集中的URL按照目录分隔符“/”进行切割,得到处理后的URL,使用网页爬取程序按照从右至左依次爬取URL,获取网页中的title、description和keywords,并且剔除网页停用词;/n步骤2.3:当爬取到最后一个URL时,将URL按照域名分隔符“.”进行切割,得到处理后的URL,使用网页爬取程序按照从左至右依次爬取URL,获取网页中的title、description和keywords,并且剔除网页停用词;/n步骤2.4:将步骤2.2和步骤2.3中得到的网页数据加入到网页标题集中,得到处理后的已浏览网页标题集。/n
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于淮阴工学院,未经淮阴工学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201710054675.8/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top