[发明专利]一种多维度网页浏览行为评估方法有效
申请号: | 201710054675.8 | 申请日: | 2017-01-24 |
公开(公告)号: | CN106886577B | 公开(公告)日: | 2020-02-07 |
发明(设计)人: | 朱全银;潘舒新;冯万利;李翔;贾笑颖;胡荣林;周泓;于柿民;赵阳;瞿学新;杨茂灿;唐海波;邵武杰 | 申请(专利权)人: | 淮阴工学院 |
主分类号: | G06F16/00 | 分类号: | G06F16/00 |
代理公司: | 32204 南京苏高专利商标事务所(普通合伙) | 代理人: | 梁耀文 |
地址: | 223005 江苏省*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种多维度网页浏览行为评估方法,首先对搜狗语料库中的文本分词,以TF‑IDF作为文本特征,采用朴素贝叶斯方法对语料库进行训练得到文本训练集,将搜狗语料库中的文本折半切分,得到验证测试集,通过遍历得到最优拉普拉斯平滑参数Alpha,再爬取已浏览网页的指定文本内容,得到已浏览网页标题集,接着采用Alpha的朴素贝叶斯方法对已浏览网页标题集进行分类,得到已浏览网页分类集,并将大于阈值的网页信息加入文本训练集中,利用浏览网页时的停留时间、浏览终端等多维度数据,采用终端‑时间‑分类判别方法对网页浏览数据进行评估,得到评估结果。本发明方法有效分析了网页浏览信息,提高了网页浏览行为评估的准确度。 | ||
搜索关键词: | 一种 多维 网页 浏览 行为 评估 方法 | ||
【主权项】:
1.一种多维度网页浏览行为评估方法,其特征在于,包括如下步骤:/n步骤一:对搜狗语料库中的文本分词,计算词语的词频TF和逆向文件概率IDF作为文本特征,采用朴素贝叶斯方法对语料库进行文本分类训练,得到文本训练集,对搜狗语料库中的文本折半切分,得到验证测试集,通过遍历,得到最优拉普拉斯平滑参数Alpha;/n步骤二:通过一种改进型的自适应网页爬取方法,对待处理的网页浏览数据进行标题数据的爬取,得到处理后的已浏览网页标题集;/n步骤三:对步骤二中处理后的已浏览网页标题集进行分词,得到网页标题分词集,使用步骤一中的拉普拉斯平滑参数Alpha的朴素贝叶斯方法对网页标题分词集进行分类,得到已浏览网页分类集,设置网页类型判断阈值,将大于阈值的网页标题分词集加入文本训练集中;/n步骤四:对处理后的网页分类、浏览时间、浏览终端的网页浏览数据进行预处理,采用终端-时间-分类判别方法对处理后的网页浏览数据进行评估,得到网页浏览行为评估结果;/n所述步骤二中得到处理后的已浏览网页标题集的具体方法为:/n步骤2.1:定义已浏览网页地址集、网页停用词集和已浏览网页标题集;/n步骤2.2:将已浏览网页地址集中的URL按照目录分隔符“/”进行切割,得到处理后的URL,使用网页爬取程序按照从右至左依次爬取URL,获取网页中的title、description和keywords,并且剔除网页停用词;/n步骤2.3:当爬取到最后一个URL时,将URL按照域名分隔符“.”进行切割,得到处理后的URL,使用网页爬取程序按照从左至右依次爬取URL,获取网页中的title、description和keywords,并且剔除网页停用词;/n步骤2.4:将步骤2.2和步骤2.3中得到的网页数据加入到网页标题集中,得到处理后的已浏览网页标题集。/n
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于淮阴工学院,未经淮阴工学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710054675.8/,转载请声明来源钻瓜专利网。