[发明专利]基于多主题追踪的个性化网络新闻推送方法有效
申请号: | 200910153589.8 | 申请日: | 2009-10-20 |
公开(公告)号: | CN101694659A | 公开(公告)日: | 2010-04-14 |
发明(设计)人: | 陈纯;何占盈;陈伟;卜佳俊;毛菥 | 申请(专利权)人: | 浙江大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 杭州天正专利事务所有限公司 33201 | 代理人: | 王兵;黄美娟 |
地址: | 310014 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 主题 追踪 个性化 网络新闻 推送 方法 | ||
1.基于多主题追踪的个性化网络新闻推送方法,包括以下步骤:
1)、获取用户浏览过的新闻网页,提取各新闻网页的标题和正文; 采用聚类算法将前述的新闻网页划分成多个用户感兴趣的新闻类,以 每个新闻类作为一个子兴趣模型,所述的子兴趣模型为由该子兴趣模 型中所有新闻报道的关键词信息组成的向量其中为子兴趣模型中所有的新闻报道的第i个关键词的权重信 息,若第i个关键词在多篇新闻报道中出现过,则为第i个关键词 在各篇新闻报道中的权重信息之和;
所述的新闻报道为由该新闻报道的关键词信息组成的向量 对应的关键词与其所属的子兴趣模型中的关键词一致;若新闻报道中具有第i个关键词,则为此关键 词的权重信息,若新闻报道中不具有第i个关键词,则为0;
所有的子兴趣模型构成用户的多主题兴趣模型;
2)、根据用户是否阅读由子兴趣模型推荐的新闻报道对用 户的多主题兴趣模型进行动态更新;
3)、设定所述的子兴趣模型的个数的阈值M,判断子兴趣模型的 个数是否超过所述的阈值M,若子兴趣模型的个数超过所述的阈值, 则寻找偏离用户兴趣最远的子兴趣模型,将其删除;寻找最偏离用户 兴趣的子兴趣模型包括以下步骤:
(3.1)为每个子兴趣模型引入一个用于衡量该子兴趣模型所表示的 用户兴趣的精确性的精确度参数precision(P),精确度参数值越大,则 精确性越高,其中really(P)为用户实际浏 览的由子兴趣模型推荐的新闻的数量,total(P)为子兴趣模型总 共推荐的新闻的数量;
(3.2)根据经验设定一个表示用户对新闻的兴趣随时间衰退的 因子α,引入一个表征在某一时间内、用户对新闻的兴趣的衰减程度 的衰减函数e-α·t,其中t表示从当前到该子兴趣模型上一次被点击的 时间间隔;
(3.3)结合所述的精确度参数和衰减函数获得子兴趣模型与用 户兴趣的相关度K,K=precision(P)·e-α·t,K值越小,说明该子兴趣 模型与用户兴趣偏离越远;将所有的子兴趣模型根据所述的相关度从 大到小排序,保留前M个子兴趣模型;
4)、计算待推送的新闻与所有子兴趣模型之间的相似度W,找 出最高相似度Wmax;所述的相似度W用新闻报道与子兴趣模型之间的夹角来表征,所述的夹角越小,相似度越高;
5)、计算新闻报道的排序值score(D),所述的排序值 score(D)=Wmax·precision(P)·e-αt,将排序值从大到小进行排序,将 排序后的新闻列表推送给用户;
所述的步骤1)中所述的关键词的权重信息为该关键词的TF-IDF 值,所述的TF为第i个关键词在第j篇新闻报道中的词频,其计算 公式为:其中dj(i)为在第j篇新闻报道中,关键 词i的个数,total(words)为第j篇新闻报道中的单词个数;
所述的IDF为第i个关键词的逆向文件频率,其计算公式为: 其中total(documents)为新闻报道总数, documents(i)为含有关键词i的新闻报道的数目;
则第i个关键词在第j篇新闻报道中的TF-IDF值为: di,j=TFi,j·IDFi;
所述的步骤2)中,若用户阅读了由子兴趣模型推荐的新闻报 道,则认为推送有效;若用户未阅读由子兴趣模型推荐的新闻报道, 则认为推送无效;所述的动态更新包括以下步骤:
(2.1)判断用户是否阅读由子兴趣模型推荐的新闻报道;
(2.2)若用户阅读了由子兴趣模型推荐的新闻报道,则推送 有效,子兴趣模型的更新方程为:
(2.3)若用户未阅读由子兴趣模型推荐的新闻报道,则推送 无效,子兴趣模型的更新方程为:其中,γ为根据 经验设定、代表对的影响度的一个数值;
所述的步骤4)中,相似度的计算方法为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200910153589.8/1.html,转载请声明来源钻瓜专利网。