[发明专利]push推送相似文章判定方法和装置、及存储介质和电子设备在审
申请号: | 202210658173.7 | 申请日: | 2022-06-10 |
公开(公告)号: | CN114943036A | 公开(公告)日: | 2022-08-26 |
发明(设计)人: | 李国库;张鹏飞 | 申请(专利权)人: | 盐城金堤科技有限公司 |
主分类号: | G06F16/9535 | 分类号: | G06F16/9535;G06F16/9536;G06F40/289;G06K9/62;G06F16/901;G06F16/335 |
代理公司: | 北京工信联合知识产权代理有限公司 11266 | 代理人: | 贾银秋 |
地址: | 224000 江苏省盐城市盐南高新区科城*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | push 推送 相似 文章 判定 方法 装置 存储 介质 电子设备 | ||
本发明提供了一种push推送相似文章判定方法和装置、及存储介质和电子设备,该方法包括:获取与用户匹配度最高的前N篇文章作为候选文章;获取用户的历史推送文章;基于候选文章与历史推送文章,计算每一篇候选文章与历史推送文章的文章相似度;响应文章相似度小于或者等于预先设定的阈值的比较结果,去除与历史推送文章重复的候选文章;本发明提供的push推送相似文章判定方法和装置、及存储介质和电子设备,通过计算并判断候选文章与历史推送文章的文章相似度,来确定候选文章是否与历史推送文章相似,避免在推送时对同一用户重复推送相似文章,并且能够减少资源占用率。
技术领域
本发明涉及计算机技术领域,尤其是一种push推送相似文章判定方法和装置、及存储介质和电子设备。
背景技术
目前,新闻媒体较多,对于大众关心的热点资讯,各个媒体均会进行报道。为提高用户的活跃程度,需要不定期对不同的用户推送个性化的文章资讯。但是,各个媒体报道内容的核心不会变化,只是在表述、修饰等方面会有所不同,也就是说,候选文章池中可能会存在相似的文章(不同的媒体提供的文章可能描述的是同一件事),这就会导致在为用户推送文章时,很可能为同一个用户多次选择出相似文章进行推送,因此,需要判定当前选择的文章是否在历史推送的过程中被推送过,以避免在推送时对同一用户重复选择相似文章进行推送,从而影响用户体验感。
发明内容
有鉴于此,本发明提供了一种push推送相似文章判定方法和装置、及存储介质和电子设备,以至少部分解决上述问题。
为解决上述问题,本发明提供了一种push推送相似文章判定方法,该方法包括:
获取与用户匹配度最高的前N篇文章作为候选文章;
获取用户的历史推送文章;
基于候选文章与历史推送文章,计算每一篇候选文章与历史推送文章的文章相似度;
响应文章相似度小于或者等于预先设定的阈值的比较结果,去除与历史推送文章重复的候选文章。
可选地,在本发明上述各方法实施例中,基于候选文章与历史推送文章,计算每一篇候选文章与历史推送文章的文章相似度,包括:
分别对候选文章和历史推送文章进行分词;
剔除分词后的候选文章和分词后的历史推送文章中的停用词,分别对应得到候选文章关键词语和历史推送文章关键词语;
根据历史推送文章关键词语构建有向有环图;
基于历史推送文章的有向有环图和候选文章关键词语,获取候选文章路径,得到结果向量;
根据结果向量,计算候选文章与历史推送文章的文章相似度。
可选地,在本发明上述各方法实施例中,剔除分词后的候选文章和分词后的历史推送文章中的停用词,分别对应得到候选文章关键词语和历史推送文章关键词语,包括:
预先设定停用词列表;
根据停用词列表,剔除分词后的候选文章和分词后的历史推送文章中的停用词,分别对应得到候选文章关键词语和历史推送文章关键词语。
可选地,在本发明上述各方法实施例中,根据历史推送文章关键词语构建有向有环图,包括:
汇总历史推送文章关键词语;
以历史推送文章关键词语为节点,以历史推送文章关键词语的先后顺序作为每个节点的指向,构建有向有环图。
可选地,在本发明上述各方法实施例中,基于历史推送文章的有向有环图和候选文章关键词语,获取候选文章路径,得到结果向量,包括:
将候选文章关键词语中的每一词语分别在有向有环图中进行遍历,判断能否查找到与词语相同的节点;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于盐城金堤科技有限公司,未经盐城金堤科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210658173.7/2.html,转载请声明来源钻瓜专利网。