[发明专利]一种基于主题模型的相似文章推荐方法在审
申请号: | 201711203644.0 | 申请日: | 2017-11-27 |
公开(公告)号: | CN107992542A | 公开(公告)日: | 2018-05-04 |
发明(设计)人: | 郑子彬;黄炼楷 | 申请(专利权)人: | 中山大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 广东广信君达律师事务所44329 | 代理人: | 杨晓松 |
地址: | 510275 *** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 主题 模型 相似 文章 推荐 方法 | ||
技术领域
本发明涉及互联网信息挖掘的技术领域,尤其涉及到一种基于主题模型的相似文章推荐方法。
背景技术
随着互联网的不断发展,人们的生活习惯和生活方式正在经历革命性变化,互联网的发展不仅方便了人们的生活,而且还大大增加了人们获取信息的渠道。中国互联网络信息中心(CNNIC)在《第36次中国互联网络发展状况统计报告》提到,截至2015年6月,我国网络新闻用户规模为5.55亿,其中,手机网络新闻用户规模为4.60亿;网络新闻作为信息获取类的重要应用,使用率仅次于即时通信,排在第二位。
在大数据的社会背景下,以Google、百度为代表的搜索引擎可以让那个用户通过输入关键词精确找到自己需要的相关信息。但是,如果用户无法准确描述符合自己需求的关键词,搜索引擎就没办法发挥作用了。和搜索引擎不同的是,推荐系统通过分析用户的行为或项目内容的特征,从而来发现用户感兴趣的内容。随着各大新闻文章信息发布平台(如微信公众号)的发展和壮大,文章的数量快速增加,用户在获取感兴趣文章的难度不断加大,海量文章给用户带来广泛信息内容的同时也给用户带来很大的选择困扰,如何帮助用户高效发掘感兴趣的文章成为一个信息发布平台急需解决的重要问题。
由于缺乏足够的用户兴趣相关信息,以及处理文章面临的复杂问题,导致互联网上文章的自动推荐效果有限,相似文章推荐算法还有很大的提升空间。文章推荐算法需要使用自然语言处理技术来应对自然语言的词义歧义、句法模糊、语法不规范和词语不统一等难点,还要将自然语言转换成机器能识别的数学符号,通过机器学习和数据挖掘的手段来建模、验证。目前,对于相似文章推荐算法已有大量相关的研究,比如基于聚类和分类的文章推荐、基于关键词的文章推荐、基于特定领域热门文章的推荐等等。虽然相关研究能在某些应用场景下取得一定的效果,但其中出现的复杂度高、适用范围较小、人工标记成本高、推荐多样性差等问题局限了文章推荐算法的应用。
发明内容
本发明的目的在于克服现有技术的不足,提供一种能帮助互联网用户高效挖掘感兴趣文章、适用范围较大、人工标记成本较低、推荐多样性较好的基于主题模型的相似文章推荐方法。
为实现上述目的,本发明所提供的技术方案如下:
S1.文章原始文本预处理,提取单纯的文章内容:
文章的原始数据一般来源于网络,而文章原始本文以网页的格式来存储,通过浏览器的渲染才展示为排版完善的文章;由于文章原始文本并不是单纯的中文内容,其中可能包含超文本标记语言、层叠样式表和动态脚本语言代码等,所以需要对文章原始文本进行预处理。
预处理的方法有:正则表达式技术、正文提取技术、解析技术。
S2.对文章内容进行分词、词性分析,筛选出名词词性的词语,词袋抽取,由此形成文章主要的词语特征向量:
现有成熟的中文分词工具有结巴分词、盘古分词等,本方案采用结巴分词工具用于文章的主题内容做分词;在分词之后,通过词性分析筛选保留名词词性的词语,这相比于关键词提取等其他处理方式,名词词语在实验验证中效果最佳。
将词语编码成特征向量的过程中,本方案使用了词袋模型。词袋模型是自然语言处理的一种常用技术。在这种模型中,文本(段落或者文档)被看作是无序的词汇集合,忽略语法甚至是单词的顺序,文档中每个词语的出现都是独立的,不依赖其他单词的出现。词袋模型基于上述文章的词语集合,构建一个包含出现过的每个词语唯一索引的词典。假设词语的出现顺序没有关系,那么就能文章的词语集合进行词袋抽取,再用该词典中每个单词在文章中出现的频率来表示每篇文章的词语集合,这样就得到文章词袋抽取之后的词语特征向量。
S3.利用所有文章的词语特征向量训练TFIDF模型,基于该TFIDF模型计算每篇文章的词语特征向量,形成TFIDF特征向量:
上面所得到的文章词语特征向量属于文章内特征,也就是说文章词语特征向量只能表达文章内部的模式和特点,但不能表达文章在整个文章集合中的模式和特点,因此本方案对文章词语特征向量进一步提炼,采用信息检索技术——TFIDF技术来表达文章的词语在整个文章集合中的特征权值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中山大学,未经中山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711203644.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种一体化制导控制系统
- 下一篇:一种带有人机界面的嵌入式多轴控制器