[发明专利]一种上网偏好用户群体的确定方法和设备有效
申请号: | 201310752439.5 | 申请日: | 2013-12-31 |
公开(公告)号: | CN104750752B | 公开(公告)日: | 2018-06-15 |
发明(设计)人: | 徐萌;何鸿凌;王彦峰;钱岭;孙少凌 | 申请(专利权)人: | 中国移动通信集团公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京睿博行远知识产权代理有限公司 11297 | 代理人: | 龚家骅 |
地址: | 100032 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用户群体 偏好 上网 目标URL 方法和设备 倒排索引 关键词确定 处理效率 快速获取 数据记录 系统资源 用户标识 用户筛选 准确度 灵活度 匹配 筛选 消耗 应用 访问 | ||
本发明实施例公开了一种上网偏好用户群体的确定方法和设备,通过应用本发明实施例所提出的技术方案,在需要确定上网偏好用户群体时,根据上网偏好用户群体所对应的关键词确定相应的目标URL,并结合该目标URL所对应的倒排索引信息,确定对该目标URL的访问次数符合用户筛选条件的各用户标识所对应的用户组成该上网偏好用户群体,从而,充分利用倒排索引信息高性能、高灵活度的特征,实现上网偏好用户群体的快速获取,避免了大量数据记录和匹配所带来的系统资源的消耗,提高了上网偏好用户群体确定过程的处理效率和筛选准确度。
技术领域
本发明涉及网络技术领域,尤其涉及一种上网偏好用户群体的确定方法和设备。
背景技术
在现有的技术方案中,一般可以基于网页内容进行客户行为分析,只要用户在上网过程中浏览网页,系统就可基于分析用户使用手机或宽带上网的访问网址,根据网址库进行深入分析匹配归类,总结出用户的喜好属性,从而根据用户的喜好在网站上个性化地展现对其有价值的内容。
其中,具体的实现示例如下:
步骤A、选定一个或多个主题词,例如x86,宝马,张学友等,将其作为搜索关键词输入搜索引擎,从而,获取到一系列此关键词相关的网页地址列表;
步骤B、根据步骤A中的地址列表,与用户访问的日志行为相匹配,找到按照一定规则访问这些地址列表的用户群体。
这样的用户群体即为对上述选定的主题词感兴趣的用户群体。
在实现本发明的过程中,发明人发现现有技术中至少存在以下问题:
数据量大。以目前用户量状态,日志数据的数据规模非常巨大,并且增长迅速,如果与关键词相关的网页地址列表做匹配,尤其是还需要匹配一定的规则的情况下,将会进一步存在问题如下:
a)直接做关联操作性能极差,一方面,日志数据的数据规模非常巨大,另一方面,与其进行关联的网页地址的数量,则会因为所选择的关键词差异以及检索规则的变化,而产生剧烈的波动,其数据规模的稳定性很差,并且两者数据规模的差异也是非常巨大的,以一个省的业务量为例,其每天可以产生170亿条日志数据,再加上计算周期,例如一周或一个月,表规模巨大。而进行关联的网页地址的数量则可能只有20亿条左右。每次的用户群体获取都要进行这两个大表的关联操作。
b)关联后的结果存储冗余度大,仍以上述数据为例,20亿条表的容量的8倍存储冗余(170/20=8),并且,用户的日志数据时刻都在更新,如果想进行一定周期的用户行为群体获取,则需要保存大量日志,造成大量存储空间的消耗。
发明内容
本发明实施例的目的在于提供一种上网偏好用户群体的确定方法和设备,可以更加准确快捷的确定上网偏好用户群体。
为了达到上述目的,本发明实施例提供了一种上网偏好用户群体的确定方法,包括:
遍历待分析的用户上网日志记录,分别生成所述用户上网日志记录中所包括的各URL所对应的倒排索引信息,其中,一个URL所对应的倒排索引信息具体包括访问所述URL的用户标识,以及所述用户标识对所述URL的访问特征信息;
当需要确定上网偏好用户群体时,选择所述上网偏好用户群体所对应的一个或多个关键词,并根据选择的关键词确定相应的目标URL;
根据所确定的目标URL所对应的倒排索引信息,确定对所述目标URL的访问特征信息符合用户筛选条件的各用户标识所对应的用户组成所述上网偏好用户群体。
优选的,所述当需要确定上网偏好用户群体时,选择所述上网偏好用户群体所对应的一个或多个关键词,并根据选择的关键词确定相应的目标URL,具体包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国移动通信集团公司,未经中国移动通信集团公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310752439.5/2.html,转载请声明来源钻瓜专利网。