[发明专利]基于历史记录的用户兴趣提取方法在审
申请号: | 201511008729.4 | 申请日: | 2015-12-29 |
公开(公告)号: | CN105574200A | 公开(公告)日: | 2016-05-11 |
发明(设计)人: | 董政;吴文杰;陈露;李学生 | 申请(专利权)人: | 成都陌云科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 北京天奇智新知识产权代理有限公司 11340 | 代理人: | 郭霞 |
地址: | 610041 四川省成都市高*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 历史记录 用户 兴趣 提取 方法 | ||
技术领域
本发明涉及大数据,特别涉及一种基于历史记录的用户兴趣提取方法。
背景技术
近年来移动互联网、电子商务、物联网迅猛发展,用户在网上可获取的消 息越来越多,互联网中有海量的信息内容,用户为了找到自己真正感兴趣和需 要的信息,不得不花费巨大的时间和精力去筛选这些信息,甚至可能还会由于 搜索不当导致用户错过或漏选真正感兴趣的信息。因此需要一种根据自身在网 络中的行为习惯和兴趣爱好,能够自动为用户提供用户需要的信息的服务。比 如网络商家,当商家在网络中发布自己的商品信息,而对此感兴趣的用户又错 过了浏览该商品的机会,商家就丧失了一次可能进行商品交易的机会,因此商 家也需要网络能够提供一种自动将其发布的商品信息提供给对商品可能感兴趣 的用户的服务。传统的技术方案对用户在网络中的行为习惯和兴趣爱好进行分 析,实现信息推送。而只是记录了用户的上网记录,访问了哪些服务器的哪些 页面。这些信息不能很明显地展示用户的兴趣爱好。而通过第三方网站跟踪用 户的用户识别方法只考虑了商家的需求,没有考虑用户的信息安全;根据用户 上网的行为模式判断新会话属于哪个用户的方法只是分析了动态的会话,而且 当数据量庞大时,由于缺少识别用户的信息,仅依靠用户的行为模式,不能进 行用户识别。
发明内容
为解决上述现有技术所存在的问题,本发明提出了一种基于历史记录的用 户兴趣提取方法,包括:
对用户行为历史数据进行预处理并识别独立用户;确定关键词在上下文的 语义,根据语义对关键词进行词频统计,从而得到用户的兴趣特征。
优选地,所述对用户行为历史数据进行预处理,进一步包括:
删除Web日志中无关的数据,然后将网站日志数据规范化为以下字段:
Record=<Source,ACC,Time,URL,Reference,Des,Agent,cke>;
其中,Source为用户登录时主机的IP地址;ACC为用户的账户;Time是 用户访问这一URL的时刻,即生成这一条日志的时刻;URL则是用户访问的页 面;Reference表示用户是从哪一个页面链接到当前页面;Des是用户要访问的 页面所在的网站的主机IP,即服务器IP地址;Agent则是用户当前使用的机器 的配置和使用的浏览器的配置的信息;cke是用户在网站上的私人信息,其中 Agent和cke是经过编码的,使用Java库中的相应解码函数对其进行解码;
其中,所述确定关键词在上下文的语义,根据语义对关键词进行词频统计, 从而得到用户的兴趣特征,进一步包括:
对于输入的每条关键词记录,如果不存在该记录,则新增一列词频字段, 并将其置为1;如果已经存在一条记录与该记录的字段都相同,则将与该条记录 一致的词的词频值更新为原来的值+1;统计出每个用户词频值最大的预定义数 量的记录并输出,将每一用户的预定义数量词频最大的记录的特征词即为该用 户的兴趣特征,记录为:
Record=<UserID,list<Key,Cls,Weight>
其中,Weight为该特征词在该分类下出现的次数,即权重;list作为其兴 趣特征,其中Key是特征词,Cls是兴趣特征词的分类,对每一个用户记录的每 一个用户兴趣特征词提取其分类,然后添加到特征分类词库CLB;提取兴趣特 征分类时,判断分类词库中是否存在该特征分类,如果不存在,则将其加入特 征词库;如果存在,再继续提取下个特征词的分类;接下来根据特征分类词库 中的每一个词找出对该分类感兴趣的用户,即找相似特征用户;将用户User的 每个兴趣特征词记为Wi,则在计算该用户在每一个兴趣特征词与分类词的语义 近似度的值时在兴趣特征词与分类词的相似度的值上加上权重比例,得到用户 User与分类词C的语义近似度;然后,对所有用户按照其与分类词的语义近似 度的值进行降序排序,取排序后预定比例的用户作为属于该分类的用户,将这 些用户的UserID添加到分类词的链表中记录下来;然后计算所有用户的兴趣特 征与CLB中的其他分类词的语义近似度;计算每个分类下的用户,最终得到CLB 中每个分类词下所属的用户。
本发明相比现有技术,具有以下优点:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都陌云科技有限公司,未经成都陌云科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201511008729.4/2.html,转载请声明来源钻瓜专利网。