[发明专利]一种基于内容的印尼新闻网页推荐方法有效
申请号: | 201810711968.3 | 申请日: | 2018-07-02 |
公开(公告)号: | CN108875065B | 公开(公告)日: | 2021-07-06 |
发明(设计)人: | 杨国武;董俊文;杨晓强;卢秋莉;张庆颖;曾珍 | 申请(专利权)人: | 电子科技大学 |
主分类号: | G06F16/9535 | 分类号: | G06F16/9535;G06F40/284;G06F40/242 |
代理公司: | 成都弘毅天承知识产权代理有限公司 51230 | 代理人: | 李龙 |
地址: | 611731 四川省成*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 内容 印尼 新闻 网页 推荐 方法 | ||
本发明公开了一种基于内容的印尼新闻网页推荐方法,首先爬取印尼新闻数据,提取每篇印尼新闻中的关键词并将关键词的编号保存至对应印尼新闻的字段中;利用所述印尼新闻数据训练word2vector神经网络模型和doc2vector神经网络模型,分别得到词到向量的映射字典和具有稳定参数的模型;筛选出与当前被浏览的印尼新闻的关键词编号重复最多的p篇印尼新闻,作为候选数据集;利用所述映射字典和模型计算当前被浏览的印尼新闻和候选数据集中每篇印尼新闻的向量表示;利用所述向量表示计算当前被浏览的新闻与候选数据集中每一篇印尼新闻的距离;利用所述距离进行排序,选取候选数据集中距离小的前m篇印尼新闻作为推荐新闻;本发明能够保证相似性的同时极大减少计算量。
技术领域
本发明涉及计算机领域,具体涉及一种基于内容的印尼新闻网页推荐方法。
背景技术
用户搜索网页新闻时,系统将高效且准确的从数据库中检索出与用户当前浏览的网页新闻在内容上相似或相近的新闻。现有实现相同功能的技术大致有如下两种:
第一种:基于数据库自带的搜索排序功能。
搜索引擎的大致工作原理如下:将所拥有全部新闻网页中的每一篇新闻作分词处理,分词的结果存储在数据库中,每一个词汇会对应一个新闻序号字段,表示哪些新闻中包含这个词汇。当用户检索新闻时,系统将用户输入的词汇进行分词处理后,在数据库中查找每个词汇对应的新闻序号字段,然后将这些词汇对应的新闻序号字段求交集,即是找到同时包含输入词汇的新闻序号,然后将其中一个返回,这样用户就根据搜索查看到了对应的新闻。数据库自带的推荐实现就是在上一步骤基础之上,将找到的其他新闻序号返回。
该方法的缺点如下:数据库的主要功能是支持对数据进行高效的增删查改操作,数据库自带的实现排序的方法源于对新闻的分词,然后建立倒排索引。利用词汇对应的新闻序号这一信息,仅仅给予了新闻中每个词汇相同重要性,没突出新闻的主体,这样会导致即使对词汇对应的新闻序号做了交集运算,包含这样词汇的新闻量还是很多,因为把新闻中每个词汇赋予了相同的重要性,而新闻有关键词,这些词汇应该要更重要些。所以推荐出来的新闻可能也含有这些词汇,但仅仅出现一次,而且对全文信息毫无中用,那么推荐的效果就不够理想。
第二种:基于已经搜索出来的网页,利用TF-IDF技术对该网页进行表示,同时利用该技术对数据库中的其他网页进行表示。TF-IDF即是词频-逆文档频率,要推荐新闻首先要表示新闻,怎样准确的表示一篇新闻成为了关键,词频-逆文档频率,提供了这么一种思想,将新闻分割为词汇后,认为新闻中词汇频率高的同时这些词汇在其他新闻中出现次数较少的,那么这些词汇就能够有效的成为这篇新闻的关键词以来区分数据库中其他的新闻。利用TF-IDF经过数学运算得到一个数值。那么每一篇新闻中这些词都有一个这样的TF-IDF值。这样使得每一篇新闻都能用这样的一个数值向量表示,然后利用已经向量化的新闻通过数学方式如:欧氏距离或余弦相似,求得向量的相似程度,来实现基于内容的推荐。
该方法的缺点如下:词频-逆文档频率首先是对新闻向量化,即是将新闻转化为维度相同的一个一维数值向量。在新闻向量的基础上进行相似推荐。这个向量的维度非常大,就算利用了一些词汇过滤手段去除掉一些词汇,向量的维度还是会达到数十万。在内存中计算的开销非常大。其二,利用TF-IDF计算每篇新闻各个维度的值,只是利用到了新闻词汇词频的信息,没有更多的考虑上下文的信息,对新闻信息的利用率低。
发明内容
本发明的目的在于:提供一种基于内容的印尼新闻网页推荐方法,解决了目前基于内容的新闻推荐效果与计算量平衡的技术问题。
本发明采用的技术方案如下:
一种基于内容的印尼新闻网页推荐方法,包括以下步骤:
步骤1:爬取印尼新闻数据,提取每篇印尼新闻中的关键词并将关键词的编号保存至对应印尼新闻的字段中;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810711968.3/2.html,转载请声明来源钻瓜专利网。
- 内容再现系统、内容提供方法、内容再现装置、内容提供装置、内容再现程序和内容提供程序
- 内容记录系统、内容记录方法、内容记录设备和内容接收设备
- 内容服务系统、内容服务器、内容终端及内容服务方法
- 内容分发系统、内容分发装置、内容再生终端及内容分发方法
- 内容发布、内容获取的方法、内容发布装置及内容传播系统
- 内容提供装置、内容提供方法、内容再现装置、内容再现方法
- 内容传输设备、内容传输方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容发送设备、内容发送方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容再现装置、内容再现方法、内容再现程序及内容提供系统
- 内容记录装置、内容编辑装置、内容再生装置、内容记录方法、内容编辑方法、以及内容再生方法