[发明专利]基于中文网页自动分类技术的Web用户行为分析方法无效
申请号: | 201110227800.3 | 申请日: | 2011-08-09 |
公开(公告)号: | CN102402566A | 公开(公告)日: | 2012-04-04 |
发明(设计)人: | 孙建;张梅琴;张顺颐;王攀 | 申请(专利权)人: | 江苏欣网视讯科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 210003 江苏省南*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供了一种基于中文网页自动分类技术的web用户行为分析方法,采用朴素贝叶斯分类方法,使用类别概率和特征项的联合分布概率自动推理出web用户所浏览的网页的类别,在网页分类的基础上对web用户的上网习惯进行分析,得出用户行为分析结果。本发明的关键技术是构造了一个动态的训练集,能够根据分类准确度指标自动更新,使得训练集更加具有时效性和代表性。本方法一共分为四个模块:数据处理模块、特征提取模块、网页分类模块和用户行为分析模块。数据处理模块主要是获取用户的基本信息和用户所浏览的网页的源码,并从源码中提取出中文部分。特征提取模块主要筛选出能描述网页类别特征的特征项,最后表示成向量形式。 | ||
搜索关键词: | 基于 中文 网页 自动 分类 技术 web 用户 行为 分析 方法 | ||
【主权项】:
一种基于中文网页自动分类技术的Web用户行为分析方法,其特征在于该方法的步骤:(1)数据采集。根据需求采集信息,主要是采集Web用户的基本信息和提取用户所浏览网页的URL。(2)网页源码提取。根据URL获取网页的源代码,并且除去Html标记、文本、图像、客户脚本等信息,只留下纯净的中文文本。(3)分词。采用最大双向匹配法,通过与中文词典的词条匹配,将中文Web文本的内容切分成若干词条组成的集合。(4)筛选关键词。筛选关键词分为关键词条长度筛选和去除重复关键词两个步骤。首先,将词条的范围限制到2到4之间,不在此范围内的词条对分类作用不大甚至起干扰作用,将这些词条剔除。然后,对每个文本中重复出现的词条只记录一次,并记录与之相关的词频,可以提高计算速度,减少计算错误。(5)确定特征项。网页中的中文关键词同类别之间满足χ2分布,所以采用χ2统计方法来确定特征项。先计算关键词在各类别中的频数,然后通过χ2统计公式来计算统计量,最后选择统计量较大的前1000个关键词作为特征项。(6)网页向量表示。记录所选定的特征项和与之相关的词频,并用向量的形式表示。网页向量的元素是特征项,元素值是本网页文本中特征项的词频。(7)用朴素贝叶斯分类方法进行网页分类。将类别概率作为先验概率,特征项的联合分布概率作为条件概率,根据贝叶斯理定理可求出后验概率。选择后验概率最大的类别作为待测网页的类别。(8)更新训练集。设置一个评价分类结果准确率的量度指标和阈值,每次分类完成后计算该分类结果的准备度指标,如果分类结果的准确度指标大于阈值,则更新训练集,将待测网页的网页向量加到训练集的相关类别中。否则,保持原有的训练集不变。(9)Web用户行为分析。组合不同的查询条件,结合用户基本信息和所浏览的网页的类别信息,可得出不同条件下用户浏览不同类型的Web网页的分布情况,根据这些信息可得出Web用户的行为习惯和爱好趋向,有助于提供更加个性化的服务。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏欣网视讯科技有限公司,未经江苏欣网视讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201110227800.3/,转载请声明来源钻瓜专利网。
- 上一篇:笔记本电脑桌
- 下一篇:一种便于挂取的购物袋