[发明专利]基于中文网页自动分类技术的Web用户行为分析方法无效
申请号: | 201110227800.3 | 申请日: | 2011-08-09 |
公开(公告)号: | CN102402566A | 公开(公告)日: | 2012-04-04 |
发明(设计)人: | 孙建;张梅琴;张顺颐;王攀 | 申请(专利权)人: | 江苏欣网视讯科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 210003 江苏省南*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 中文 网页 自动 分类 技术 web 用户 行为 分析 方法 | ||
技术领域
本发明提供了一种基于中文网页自动分类技术的web用户行为分析方法,采用朴素贝叶斯分类方法,使用类别概率和特征项的联合分布概率自动推理出web用户所浏览的网页的类别,在网页分类的基础上对web用户的上网习惯进行分析,得出用户行为分析结果。本发明的关键技术是构造了一个动态的训练集,能够根据分类准确度指标自动更新,使得训练集更加具有时效性和代表性。本方法涉及人工智能、用户行为分析、网页分类、网络管理等领域。
发明背景
Internet的迅猛发展带来了用户数的剧增,用户对网络的要求也越来越高。分析用户的群体构成及其习惯爱好,向用户提供更具个性化的服务,已经成为一个重要的研究方向。而随着业务的多元化,对Internet及其用户行为的研究,也是网络的规划、设计和管理的重要依据。
在采集用于分析用户行为的数据时,我们可以获得用户所访问的站点的URL,但是并不清楚这些URL属于什么类别,因此需要将URL和具体语意(如体育/财经/军事等)对应起来。建立一个完整、准确、动态的网页自动分类系统,就可以通过URL得到其所属类别。在已知访问站点类别的基础上,可以对Web业务进行深度分析,挖掘用户的网络行为,获知用户的行为习惯和喜好趋向,从而为提供个性化的服务提供依据。
发明内容:
技术问题:本发明提供了一种基于中文网页自动分类技术的web用户行为分析方法,采用朴素贝叶斯分类方法,使用类别概率和特征项的联合分布概率自动推理出web用户所浏览的网页的类别,在网页分类的基础上对web用户的上网习惯进行分析,得出用户行为分析结果。本发明的关键技术是构造了动态的训练集,设置一个评价分类准确度的指标和阈值,每次分类完成后计算该分类结果的准备度指标,如果分类结果的准确度指标大于阈值,则自动更新训练集,将待测网页的网页向量加到训练集的相关类别中。与以往的静态训练集相比,动态训练集更加具有时效性和代表性,能使得分类结果更加准确。
技术方案:本发明提出一种基于中文网页自动分类技术的web用户行为分析方法,其具体的实现步骤如下:
(1)数据采集。根据需求采集信息,主要是采集Web用户的基本信息和提取用户所浏览网页的URL。
(2)网页源码提取。根据URL获取网页的源代码,并且除去Html标记、文本、图像、客户脚本等信息,只留下纯净的中文文本。
(3)分词。采用最大双向匹配法,通过与中文词典的词条匹配,将中文Web文本的内容切分成若干词条组成的集合。
(4)筛选关键词。筛选关键词分为关键词条长度筛选和去除重复关键词两个步骤。首先,将词条的范围限制到2到4之间,不在此范围内的词条对分类作用不大甚至起干扰作用,将这些词条剔除。然后,对每个文本中重复出现的词条只记录一次,并记录与之相关的词频,可以提高计算速度,减少计算错误。
(5)确定特征项。网页中的中文关键词同类别之间满足x2分布,所以采用x2统计方法来确定特征项。先计算关键词在各类别中的频数,然后通过x2统计公式来计算统计量,最后选择统计量较大的前1000个关键词作为特征项。
(6)网页向量表示。记录所选定的特征项和与之相关的词频,并用向量的形式表示。网页向量的元素是特征项,元素值是本网页文本中特征项的词频。
(7)用朴素贝叶斯分类方法进行网页分类。将类别概率作为先验概率,特征项的联合分布概率作为条件概率,根据贝叶斯理定理可求出后验概率。选择后验概率最大的类别作为待测网页的类别。
(8)更新训练集。设置一个评价分类结果准确率的量度指标和阈值,每次分类完成后计算该分类结果的准备度指标,如果分类结果的准确度指标大于阈值,则更新训练集,将待测网页的网页向量加到训练集的相关类别中。否则,保持原有的训练集不变。
(9)Web用户行为分析。组合不同的查询条件,结合用户基本信息和所浏览的网页的类别信息,可得出不同条件下用户浏览不同类型的Web网页的分布情况,根据这些信息可得出Web用户的行为习惯和爱好趋向,有助于提供更加个性化的服务。
有益效果
通过基于中文网页自动分类技术的web用户行为分析方法,我们能够实现:
(1)能够根据分类准确度指标自动更新训练集,相较于以往的静态训练集,动态训练集更加具有时效性和代表性。
(2)在训练集实时更新的基础上,采用朴素贝叶斯分类方法对网页自动分类,其分类结果比较准确。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏欣网视讯科技有限公司,未经江苏欣网视讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110227800.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:笔记本电脑桌
- 下一篇:一种便于挂取的购物袋