[发明专利]基于URL中锚文字和周边文本的人口属性分类方法及装置在审
申请号: | 201410658093.7 | 申请日: | 2014-11-18 |
公开(公告)号: | CN104462241A | 公开(公告)日: | 2015-03-25 |
发明(设计)人: | 张岩峰;梁东山 | 申请(专利权)人: | 北京锐安科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京品源专利代理有限公司 11332 | 代理人: | 胡彬;路凯 |
地址: | 100044 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 url 文字 周边 文本 人口 属性 分类 方法 装置 | ||
技术领域
本发明涉及数据挖掘技术领域,尤其涉及一种基于URL中锚文字和周边文本的人口属性分类方法及装置。
背景技术
人的人口学属性包括但不限于年龄、性别、家庭收入、职业类别、教育级别、人生阶段等。洞察人的人口学属性对于个人化Web应用、个人化广告投放等具有重要的现实应用意义,例如,可以帮助网站管理者通过统计洞察访问者的人口属性,并针对目标人群对网站内容和表现形式进行优化。
现有的人口属性分类方法,大都是根据用户浏览的Web页面,获取Web页面中的文本特征,根据文本特征查找预先建立的人口属性分类模型,从而完成对用户的人口属性的分类。其中,人口属性分类模型是使用已知用户的人口属性信息和浏览的Web页面包含的文本特征作为样本数据训练得到的。
但是,上述方法需要获取用户浏览Web网页中的关键字信息,而Web网页的信息量是巨大的,干扰因素较多,不能够直接反映用户的点击目的。且上述方法中的人口属性分类模型是根据已知用户的样本信息建立的,而已知用户的样本数量有限,浏览Web网页的文本特征具有很强的稀疏性。
发明内容
有鉴于此,本发明的目的在于提出一种基于URL中锚文字和周边文本的人口属性分类方法及装置,能够快速准确的对用户进行人口属性分类。
为达此目的,本发明采用以下技术方案:
本发明提供一种基于URL中锚文字和周边文本的人口属性分类方法,包括:
获取未知用户预设时间段内点击的URL中的锚文字和周边文本;
根据所述锚文字和周边文本、预先建立的第一分类模型将所述URL分类到不同的目录类别中,所述第一分类模型为利用互联网分类目录进行分类训练得到的;
根据不同目录类别下的类别特征信息、预先建立的第二分类模型对所述未知用户进行人口属性分类预报,所述第二分类模型为根据已知用户点击的URL所属目录类别下的类别特征信息和人口属性进行分类训练得到的。
进一步的,所述类别特征信息包含URL数量;
所述第二分类模型为根据已知用户点击的URL所属目录类别下的类别特征信息和人口属性进行分类训练得到的,包括:
将所述已知用户点击的URL所属目录类别下的URL数量生成特征向量,利用分类算法训练得到特征向量和人口属性之间的对应关系;
所述根据不同目录类别下的类别特征信息、预先建立的第二分类模型对所述未知用户进行人口属性分类预报,包括:
将所述不同目录类别下的URL数量生成待分类特征向量;确定所述第二分类模型中与所述待分类特征向量最匹配的特征向量;根据所述最匹配的特征向量确定待分类特征向量所对应的人口属性。
进一步的,所述分类算法为以下任意一种:
逻辑递归分类算法、支持向量机分类算法、决策树分类算法、贝叶斯分类算法。
进一步的,所述第一分类模型为利用互联网分类目录进行分类训练得到的, 包括:
从互联网上提供的分类服务网站上抓取目录树作为分类,所述目录树中包含不同的目录类别;
对不同目录类别下的网页包含的文本内容进行训练,得到第一分类模型。
进一步的,所述对不同目录类别下的网页包含的文本内容进行训练,包括:
提取所述网页内容中的特征词,构造特征向量;
根据特征向量和目录类别采用分类算法对所述网页的URL进行分类。
本发明还提供一种基于URL中锚文字和周边文本的人口属性分类装置,包括:
获取模块,用于获取未知用户预设时间段内点击的URL中的锚文字和周边文本;
目录分类模块,用于根据所述锚文字和周边文本、预先建立的第一分类模型将所述URL分类到不同的目录类别中,所述第一分类模型为利用互联网分类目录进行分类训练得到的;
人口属性预报模块,用于根据不同目录类别下的类别特征信息、预先建立的第二分类模型对所述未知用户进行人口属性分类预报,所述第二分类模型为根据已知用户点击的URL所属目录类别下的类别特征信息和人口属性进行分类训练得到的。
进一步的,所述类别特征信息包含URL数量;
所述装置,还包括:
第二分类模型建立模块,用于将所述已知用户点击的URL所属目录类别下的URL数量生成特征向量,利用分类算法训练得到特征向量和人口属性之间的对应关系;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京锐安科技有限公司,未经北京锐安科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410658093.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:字符串比对方法和装置
- 下一篇:一种通用的数据库序列生成方法