[发明专利]基于历史记录的用户兴趣提取方法在审
申请号: | 201511008729.4 | 申请日: | 2015-12-29 |
公开(公告)号: | CN105574200A | 公开(公告)日: | 2016-05-11 |
发明(设计)人: | 董政;吴文杰;陈露;李学生 | 申请(专利权)人: | 成都陌云科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 北京天奇智新知识产权代理有限公司 11340 | 代理人: | 郭霞 |
地址: | 610041 四川省成都市高*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 历史记录 用户 兴趣 提取 方法 | ||
1.一种基于历史记录的用户兴趣提取方法,其特征在于,包括:
对用户行为历史数据进行预处理并识别独立用户;确定关键词在上下文的 语义,根据语义对关键词进行词频统计,从而得到用户的兴趣特征。
2.根据权利要求1所述的方法,其特征在于,所述对用户行为历史数据进 行预处理,进一步包括:
删除Web日志中无关的数据,然后将网站日志数据规范化为以下字段:
Record=<Source,ACC,Time,URL,Reference,Des,Agent,cke>;
其中,Source为用户登录时主机的IP地址;ACC为用户的账户;Time是 用户访问这一URL的时刻,即生成这一条日志的时刻;URL则是用户访问的页 面;Reference表示用户是从哪一个页面链接到当前页面;Des是用户要访问的 页面所在的网站的主机IP,即服务器IP地址;Agent则是用户当前使用的机器 的配置和使用的浏览器的配置的信息;cke是用户在网站上的私人信息,其中 Agent和cke是经过编码的,使用Java库中的相应解码函数对其进行解码;
其中,所述确定关键词在上下文的语义,根据语义对关键词进行词频统计, 从而得到用户的兴趣特征,进一步包括:
对于输入的每条关键词记录,如果不存在该记录,则新增一列词频字段, 并将其置为1;如果已经存在一条记录与该记录的字段都相同,则将与该条记录 一致的词的词频值更新为原来的值+1;统计出每个用户词频值最大的预定义数 量的记录并输出,将每一用户的预定义数量词频最大的记录的特征词即为该用 户的兴趣特征,记录为:
Record=<UserID,list<Key,Cls,Weight>
其中,Weight为该特征词在该分类下出现的次数,即权重;list作为其兴 趣特征,其中Key是特征词,Cls是兴趣特征词的分类,对每一个用户记录的每 一个用户兴趣特征词提取其分类,然后添加到特征分类词库CLB;提取兴趣特 征分类时,判断分类词库中是否存在该特征分类,如果不存在,则将其加入特 征词库;如果存在,再继续提取下个特征词的分类;接下来根据特征分类词库 中的每一个词找出对该分类感兴趣的用户,即找相似特征用户;将用户User的 每个兴趣特征词记为Wi,则在计算该用户在每一个兴趣特征词与分类词的语义 近似度的值时在兴趣特征词与分类词的相似度的值上加上权重比例,得到用户 User与分类词C的语义近似度;然后,对所有用户按照其与分类词的语义近似 度的值进行降序排序,取排序后预定比例的用户作为属于该分类的用户,将这 些用户的UserID添加到分类词的链表中记录下来;然后计算所有用户的兴趣特 征与CLB中的其他分类词的语义近似度;计算每个分类下的用户,最终得到CLB 中每个分类词下所属的用户。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都陌云科技有限公司,未经成都陌云科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201511008729.4/1.html,转载请声明来源钻瓜专利网。