[发明专利]一种基于微博平台的领域信息推荐系统及方法在审
申请号: | 201611075431.X | 申请日: | 2016-11-28 |
公开(公告)号: | CN106776881A | 公开(公告)日: | 2017-05-31 |
发明(设计)人: | 杨燕;王帅;徐良;徐罡;田申 | 申请(专利权)人: | 中国科学院软件研究所 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京科迪生专利代理有限责任公司11251 | 代理人: | 杨学明,顾炜 |
地址: | 100190 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于微博平台的领域信息推荐系统及方法,包括数据获取与预处理模块、领域关键词提取模块、用户自定义关键词扩展模块、线性合并模块、相似度计算与个性化推荐模块以及主题获取模块;本发明针对微博平台的特性设计并实现了一种领域信息推荐方法,将关键词提取与关键词扩展进行无缝的结合,从而既保证了领域特征的提取又保证了推荐结果的动态性,通过对应系统基于新浪微博的实验,验证了本方法的有效性。本发明能够辅助企业微博营销,有效地提高企业微博营销的效率。 | ||
搜索关键词: | 一种 基于 平台 领域 信息 推荐 系统 方法 | ||
【主权项】:
一种基于微博平台的领域信息推荐系统,其特征在于包括:数据获取与预处理模块、领域关键词提取模块、用户自定义关键词扩展模块、线性合并模块、相似度计算与个性化推荐模块以及主题获取模块;其中:数据获取与预处理模块:获取用户相关微博信息数据,并进行预处理;预处理包括数据的停用词过滤、分词和词性标注;预处理结果即为用户的历史微博数据,传给领域关键词提取模块;如果用户自定义了领域兴趣关键词,则预处理结果同时传给用户自定义关键词扩展模块;领域关键词提取模块:基于预处理结果,关键词提取采用基于TextRank算法修改的TextRank for Weibo算法无指导地进行,该算法包括基于共现关系的无向图的构造和基于图的节点权重计算两个阶段;基于共现关系的无向图的构造阶段,首先将用户历史微博中出现的分词转化为对应的节点;在节点间连接边的构造时,使用节点之间是否有边以及边的权重由两个词语在同一篇微博中的共现次数判定共现的构图,边的权重即为词语在同一微博中的共现次数,如果两个词语在用户的某条微博中共现,则两个词语所对应节点之间的边之权值加1,边的最终权值为其对应两个词语在微博中的共现次数;然后再基于图的节点权重计算阶段,迭代计算每个阶段的权重,直到节点权重的变化量收敛到某个阀值为止;迭代结束后,每个节点的权重即为其所代表的分词的重要程度,将用户的所有分词按照重要度进行排序即获得关键词提取的结果,从而自动识别用户所在的领域特征;用户自定义关键词扩展模块:基于关键词的共现、分布以及其所属用户的属性信息来计算关键词之间的相似度,将高相关度的词语作为目标关键词的扩展结果;本模块支持用户输入多个自定义关键词,对于每个自定义关键词,会对关键词扩展出的扩展词向量进行线性加和,从而得到最终的扩展向量;用户自定义关键词扩展功能保证了用户的动态兴趣需求能够实时得到满足,同时极大增强了用户自定义关键词的表述能力;线性合并模块:在领域关键词自动提取和基于用户自定义关键词的扩展均完成后,采用最大值归一化方法对两个结果向量进行归一化,使关键词提取与关键词扩展的结果向量映射到一个统一的取值范围之中;归一化后,对两个归一化后的向量进行线性合并,合并过程支持用户自定义关键词提取和关键词扩展的权重;该模块输出一个代表用户最终领域兴趣的词向量;相关度计算与个性化推荐模块:线性合并模块刻画出用户领域兴趣的关键词向量之后,对每条待过滤微博进行分词以及词频统计以生成词频向量,然后将用户兴趣关键词向量、待推荐微博生成的词频向量以及IDF信息向量进行点乘运算,得到该微博与用户兴趣的相关度,该相关度即为该条微博的领域相关度,通过计算出每个用户微博的领域相关度,按照领域相关度由高到低进行排序,将微博信息呈现给用户,实现对用户的个性化领域微博推荐;主题获取模块:以推荐给用户的领域微博文本为输入训练LDA模型,根据主题的词项分布将词项聚类成主题;将主题词项集合与线性合并模块中得到的用户领域兴趣关键词项进行相关度计算,获得主题重要性,并按照重要性排序呈现给用户,从而完成主题发现和推荐。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院软件研究所,未经中国科学院软件研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201611075431.X/,转载请声明来源钻瓜专利网。
- 上一篇:一种基于图文识别的论文重查系统及其方法
- 下一篇:一种文件管理方法及移动终端
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置