[发明专利]一种基于中文相似性计算的文章推荐方法在审
申请号: | 201810701560.8 | 申请日: | 2018-06-29 |
公开(公告)号: | CN110020189A | 公开(公告)日: | 2019-07-16 |
发明(设计)人: | 孙铭鸿 | 申请(专利权)人: | 武汉掌游科技有限公司 |
主分类号: | G06F16/9535 | 分类号: | G06F16/9535;G06F16/63;G06F16/64;G06F17/27 |
代理公司: | 北京慕达星云知识产权代理事务所(特殊普通合伙) 11465 | 代理人: | 李冉 |
地址: | 430000 湖北省武汉市*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 矩阵 相似性计算 文章推荐 词向量 中文 读取 标准化处理 互联网用户 用户关键字 词组转换 矩阵计算 内容获取 爬虫程序 人工标记 相似系数 向量矩阵 转化 多样性 挖掘 帮助 | ||
本发明公开了一种基于中文相似性计算的文章推荐方法,具体步骤包括:利用Python爬虫程序爬取文章的主要内容;根据爬取文章的主要内容获取词向量,并进行训练;将待推荐的文章转化为词向量矩阵;将用户关键字词组转换为矩阵,再读取上一步得到的文章转化的词向量矩阵,并对词向量矩阵数据进行标准化处理,同时进行矩阵计算,根据相似系数进行排列。本发明提供了一种基于中文相似性计算的文章推荐方法,能帮助互联网用户高效挖掘感兴趣文章、适用范围较大、人工标记成本较低、推荐多样性较好。
技术领域
本发明涉及互联网技术领域,更具体的说是涉及一种基于中文相似性计算的文章推荐方法。
背景技术
随着互联网的不断发展,人们的生活习惯和生活方式正在经历革命性变化,互联网的发展不仅方便了人们的生活,而且还大大增加了人们获取信息的渠道。中国互联网络信息中心(CNNIC)在《第36次中国互联网络发展状况统计报告》提到,截至2015年6月,我国网络新闻用户规模为5.55亿,其中,手机网络新闻用户规模为4.60亿;网络新闻作为信息获取类的重要应用,使用率仅次于即时通信,排在第二位。
在大数据的社会背景下,以Goog l e、百度为代表的搜索引擎可以让那个用户通过输入关键词精确找到自己需要的相关信息。但是,如果用户无法准确描述符合自己需求的关键词,搜索引擎就没办法发挥作用了。和搜索引擎不同的是,推荐系统通过分析用户的行为或项目内容的特征,从而来发现用户感兴趣的内容。随着各大新闻文章信息发布平台(如微信公众号)的发展和壮大,文章的数量快速增加,用户在获取感兴趣文章的难度不断加大,海量文章给用户带来广泛信息内容的同时也给用户带来很大的选择困扰,如何帮助用户高效发掘感兴趣的文章成为一个信息发布平台急需解决的重要问题。
由于缺乏足够的用户兴趣相关信息,以及处理文章面临的复杂问题,导致互联网上文章的自动推荐效果有限,相似文章推荐算法还有很大的提升空间。文章推荐算法需要使用自然语言处理技术来应对自然语言的词义歧义、句法模糊、语法不规范和词语不统一等难点,还要将自然语言转换成机器能识别的数学符号,通过机器学习和数据挖掘的手段来建模、验证。目前,对于相似文章推荐算法已有大量相关的研究,比如基于聚类和分类的文章推荐、基于关键词的文章推荐、基于特定领域热门文章的推荐等等。虽然相关研究能在某些应用场景下取得一定的效果,但其中出现的复杂度高、适用范围较小、人工标记成本高、推荐多样性差等问题局限了文章推荐算法的应用。
因此,如何提供一种能帮助互联网用户高效挖掘感兴趣文章、适用范围较大、人工标记成本较低、推荐多样性较好的基于中文相似性计算的文章推荐方法是本领域技术人员亟需解决的问题。
发明内容
有鉴于此,本发明提供了一种基于中文相似性计算的文章推荐方法,能帮助互联网用户高效挖掘感兴趣文章、适用范围较大、人工标记成本较低、推荐多样性较好。
为了实现上述目的,本发明提供如下技术方案:
一种基于中文相似性计算的文章推荐方法,具体步骤包括:
步骤1:利用Python爬虫程序爬取文章的主要内容;
步骤2:根据爬取文章的主要内容获取词向量,并进行训练;
步骤3:将待推荐的文章转化为词向量矩阵;
步骤4:将用户关键字词组转换为矩阵,再读取步骤3得到的文章转化的词向量矩阵,并对词向量矩阵数据进行标准化处理,同时进行矩阵计算,根据相似系数进行排列。
通过上述技术方案,本发明的技术效果:根据用户的兴趣点,推荐相关度最高的文章,实现的算法则主要是中文相似性的计算,能帮助互联网用户高效挖掘感兴趣文章、适用范围较大、人工标记成本较低、推荐多样性较好。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉掌游科技有限公司,未经武汉掌游科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810701560.8/2.html,转载请声明来源钻瓜专利网。