[发明专利]一种自动实时新闻推荐方法在审
申请号: | 201710345567.6 | 申请日: | 2017-05-17 |
公开(公告)号: | CN107025310A | 公开(公告)日: | 2017-08-08 |
发明(设计)人: | 庞景秋;齐景春;崔放;于希丰;刘杨;张少卓;毛成岳 | 申请(专利权)人: | 长春嘉诚信息技术股份有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 长春吉大专利代理有限责任公司22201 | 代理人: | 杜森垚 |
地址: | 130103 吉林省长*** | 国省代码: | 吉林;22 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 自动 实时 新闻 推荐 方法 | ||
技术领域
本发明涉及一种新闻的推荐方法,其用于新闻推荐领域,特别涉及到一种自动实时新闻推荐方法。
背景技术
互联网的出现和普及给用户带来了大量的信息,满足了用户在信息时代对信息的需求。但随着网络的迅速发展而带来的网上信息量的大幅增长,使得用户在面对大量信息时,无法从中获得对自己真正有用的那部分信息,对信息的使用效率反而降低了,这就是所谓的信息超载(information overload)问题。
解决信息超载的问题有以搜索引擎为代表的信息检索系统,但是使用搜索引擎的不同用户在使用同一个关键字搜索信息时,得到的结果是相同的,可见搜索引擎满足不了用户对信息的多元化和个性化需求。而个性化推荐系统,它是根据用户的信息需求、兴趣等,将用户感兴趣的信息推送给用户。和搜索引擎相比,个性化推荐系统通过研究用户的兴趣偏好,进行个性化计算,发现用户的兴趣点,进而推送给用户感兴趣的信息。而个性化新闻推荐系统就是个性化推荐系统在新闻领域的最典型的应用。
新闻推荐系统中比较常用的推荐算法有三种:基于内容的推荐算法、协同过滤推荐算法和混合推荐算法。
基于内容的推荐算法是根据用户过去所选择的对象,找出和它相关属性相似度最高的对象,即认为该对象是最符合用户偏好的对象,并将其推荐给用户。这类算法通常来源于对信息进行检索,运用特征提取的方法,得出用户已经评价项目的特征信息,根据这些特征信息分析出用户的喜好,进而考察用户的兴趣与待推荐项目的匹配程度。但运用该方法的缺点是项目的特征抽取比较困难,特别是对于一些非结构化的信息更加难以处理。同时推荐内容受限,很难挖掘用户潜在兴趣。
协同过滤算法的基本原理是根据用户对项目的反馈信息,找出与该用户相类似的用户或者找到与该项目相类似的项目,进而进行合理推荐。协同个性化推荐的优点是可以发现用户潜在的兴趣点,缺点是不能推荐那些从来没有被同类中其他用户访问过的信息,难以解决冷启动问题、数据稀疏性问题及可扩展性问题。
混合推荐是将基于内容的推荐和协同推荐结合起来的一种推荐方法。既比较信息资源与用户兴趣模型的相似度,又寻找具有相近兴趣的用户类,可以更好的进行个性化推荐。但需具体应用场景具体分析。
发明内容
本发明提供一种自动实时新闻推荐方法,以解决上述现有技术的缺陷,本发明能对新闻进行自动、实时的个性化推荐,无论是新用户和已注册用户,都具有很强的适应性和稳定性。
一种自动实时新闻推荐方法,其特征在于,包括以下步骤:
步骤一、新闻抓取:通过爬虫工具,抓取新闻网页地址,下载新闻标题及新闻内容,并将新闻存储到数据库新闻表中;
步骤二、新闻预处理:对新闻进行分词处理,只保留名词;去掉无效新闻,并将有效新闻的分词结果存储到数据库新闻表中;
步骤三、新闻模型训练:采用基于Gibbs Sampling的LDA算法进行主题模型的训练,建立主题模型;
步骤四、新闻特征建模:进行新闻特征提取,建立新闻特征模型,新闻特征模型由新闻标签模型Nt和新闻主题特征模型Nl组成,即N={Nt,Nl};
步骤五、用户特征初步建模:进行用户特征提取,建立用户画像,对用户特征进行初步建模;
步骤六、用户特征二次建模:基于步骤五用户特征初步建模结果,对用户特征进行二次精确建模,建立用户兴趣模型U,用户兴趣模型U由用户兴趣关键词模型Ut和用户兴趣主题特征模型Ul组成,即U={Ut,Ul};
步骤七、相似度计算:基于上述步骤四至步骤六提取的新闻特征和用户兴趣,进行新闻特征模型和用户兴趣模型的融合匹配度计算;
步骤八、新闻推荐。
本发明所述的一种自动实时新闻推荐方法,步骤三新闻模型训练包括以下过程:
采用基于Gibbs Sampling的LDA算法进行主题模型的训练:先设定主题个数K,建立主题模型,即每个新闻文本在各个主题上对应的主题特征向量Tl=(w1,w2,w3,…,wk);
主题模型建立后,对建立的主题模型使用Perplexity值进行持续优化,Perplexity值计算公式为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于长春嘉诚信息技术股份有限公司,未经长春嘉诚信息技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710345567.6/2.html,转载请声明来源钻瓜专利网。