[发明专利]一种基于Hadoop平台的信息推荐方法及系统在审
申请号: | 202010542277.2 | 申请日: | 2020-06-15 |
公开(公告)号: | CN111695020A | 公开(公告)日: | 2020-09-22 |
发明(设计)人: | 张梓光;肖明;张小芳;许宋硕;周敏;鲁虎 | 申请(专利权)人: | 广东工业大学 |
主分类号: | G06F16/9532 | 分类号: | G06F16/9532;G06F16/9535;G06F16/35;G06F40/289;G06F40/30 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 郭帅 |
地址: | 510060 广东省*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 hadoop 平台 信息 推荐 方法 系统 | ||
本申请一种基于Hadoop平台的信息推荐方法及系统,其步骤主要包括:(1)获取文本信息和发布者信息,对文本信息进行去噪处理并存储于HDFS系统中;(2)利用MapReduce对存储于HDFS系统的文本信息和发布者信息生成键值对列表;(3)LDA主题模型根据键值对列表进行主题建模;(4)对文本信息聚类,根据聚类结果完成信息推荐;利用Hadoop分布式存储信息的特点对待推荐的文本信息进行初步过滤,建立信息发布者和文本信息的映射关系;结合Hadoop平台和LDA主题模型对文本信息二次过滤可对文本信息的主题实现精细化提取,提升推荐系统对文本信息的存取率和推荐前文本信息查询的准确度,进而保证信息推荐的有效性和精准程度。
技术领域
本发明属于数据挖掘领域,具体涉及一种基于Hadoop平台的信息推荐方法及系统。
背景技术
随着互联网技术的发展,越来越多的用户在线或使用移动设备浏览新闻,新闻应用已成为最热门的互联网应用之一,仅略低于网络音乐。然而海量的网络新闻会带来信息过载的问题,因此帮助用户筛选或推荐有用的新闻信息成为重要的研究课题。海量的用户涉及上千万级的关注关系和博文发布量,用户间的互动行为和阅读行为更是可达上十亿级别,随着用户数和博文量等数据的激增,现有的推荐模型和处理方法出现以下缺陷:对文本数据处理的精准度降低;主题挖掘和信息推荐的性能不足;未能较好解决用户数据稀疏问题,这些缺陷使得现有的推荐模型和处理方法无法满足用户推荐需求,阻碍新闻应用平台的推广,进而影响用户满意度。
发明内容
基于此,本发明提供一种基于Hadoop平台的信息推荐方法及系统,利用Hadoop平台分布式处理数据的特点在分类推荐之前对信息初步过滤来提高推荐的精准度,以克服现有技术的缺陷。
本发明一种基于Hadoop平台的信息推荐方法,包括:
获取文本信息及其对应的发布者信息,对文本信息进行去噪处理,将经过去噪处理的文本信息和发布者信息存储于Hadoop平台的HDFS系统;
利用MapReduce计算框架对HDFS系统中存储的文本信息和发布者信息进行分割和序化,生成多个文本信息及其对应发布者信息的键值对,合并同一发布者的键值对生成多个键值对列表;
利用LDA主题模型对键值对列表进行主题建模得到每一条文本信息的主题特征,根据LDA主题模型的建模结果对文本信息进行聚类;
根据文本信息的聚类结果对用户进行信息推荐。
优选地,对文本信息进行去噪处理包括:
将文本信息转换为统一的语言。
优选地,对文本信息进行去噪处理还包括:
把文本信息中携带的特殊符号转换为文字以保留文本信息的情感特征。
优选地,对文本信息进行去噪处理还包括:
利用ICTCLAS分词系统对文本信息进行分词。
优选地,对文本信息进行去噪处理还包括:
去除文本信息中的停用词以减少文本信息在HDFS系统中的存储空间。
优选地,对文本信息进行聚类包括:
利用余弦相似度计算文本信息的相似性,根据相似性的计算结果对文本信息进行聚类。
优选地,计算文本信息相似性包括:
利用向量空间模型VSM把文本信息简化为空间向量,则文本信息的余弦相似度如下式计算
Ai和Bi分别表示参与相似度计算的两个文本信息的基于向量空间模型VSM的空间向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东工业大学,未经广东工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010542277.2/2.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置