[发明专利]push推送相似文章判定方法和装置、及存储介质和电子设备在审
申请号: | 202210658173.7 | 申请日: | 2022-06-10 |
公开(公告)号: | CN114943036A | 公开(公告)日: | 2022-08-26 |
发明(设计)人: | 李国库;张鹏飞 | 申请(专利权)人: | 盐城金堤科技有限公司 |
主分类号: | G06F16/9535 | 分类号: | G06F16/9535;G06F16/9536;G06F40/289;G06K9/62;G06F16/901;G06F16/335 |
代理公司: | 北京工信联合知识产权代理有限公司 11266 | 代理人: | 贾银秋 |
地址: | 224000 江苏省盐城市盐南高新区科城*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | push 推送 相似 文章 判定 方法 装置 存储 介质 电子设备 | ||
1.一种push推送相似文章判定方法,其特征在于,所述方法包括:
获取与用户匹配度最高的前N篇文章作为候选文章;
获取用户的历史推送文章;
基于所述候选文章与所述历史推送文章,计算每一篇所述候选文章与所述历史推送文章的文章相似度;
响应所述文章相似度小于或者等于预先设定的阈值的比较结果,去除与所述历史推送文章重复的候选文章。
2.根据权利要求1所述的push推送相似文章判定方法,其特征在于,所述基于所述候选文章与所述历史推送文章,计算每一篇所述候选文章与所述历史推送文章的文章相似度,包括:
分别对所述候选文章和所述历史推送文章进行分词;
剔除分词后的所述候选文章和分词后的所述历史推送文章中的停用词,分别对应得到候选文章关键词语和历史推送文章关键词语;
根据所述历史推送文章关键词语构建有向有环图;
基于所述历史推送文章的有向有环图和所述候选文章关键词语,获取所述候选文章路径,得到结果向量;
根据所述结果向量,计算所述候选文章与所述历史推送文章的文章相似度。
3.根据权利要求2所述的push推送相似文章判定方法,其特征在于,所述剔除分词后的所述候选文章和分词后的所述历史推送文章中的停用词,分别对应得到候选文章关键词语和历史推送文章关键词语,包括:
预先设定停用词列表;
根据所述停用词列表,剔除分词后的所述候选文章和分词后的所述历史推送文章中的停用词,分别对应得到所述候选文章关键词语和所述历史推送文章关键词语。
4.根据权利要求2所述的push推送相似文章判定方法,其特征在于,所述根据所述历史推送文章关键词语构建有向有环图,包括:
汇总所述历史推送文章关键词语;
以所述历史推送文章关键词语为节点,以所述历史推送文章关键词语的先后顺序作为每个节点的指向,构建所述有向有环图。
5.根据权利要求2所述的push推送相似文章判定方法,其特征在于,所述基于所述历史推送文章的有向有环图和所述候选文章关键词语,获取所述候选文章路径,得到结果向量,包括:
将所述候选文章关键词语中的每一词语分别在所述有向有环图中进行遍历,判断能否查找到与所述词语相同的节点;
若查找到相同的节点,将当前词语标记为第一预设标识符并添加至结果向量,以所述有向有环图中当前节点向后继续查找所述候选文章关键词语中的下一个词语;
若未查找到相同的节点,将当前词语标记为第二预设标识符并添加至结果向量,以所述有向有环图中当前节点继续向后查找所述当前词语,当对前节点的每一出度的遍历的步长大于预设步长仍未查找到与所述当前词语相同的节点时,在所述有向有环图中重新遍历所述候选文章关键词语中的下一个词语;
遍历结束后得到最终的结果向量。
6.根据权利要求5所述的push推送相似文章判定方法,其特征在于,所述根据所述结果向量,计算所述候选文章与所述历史推送文章的文章相似度,包括:
基于最终的所述结果向量,计算所述结果向量中所述第一预设标识符的个数占整体所述结果向量长度的比例。
7.根据权利要求2所述的push推送相似文章判定方法,其特征在于,所述方法还包括:
响应所述文章相似度大于所述预先设定的阈值的比较结果,则所述候选文章与所述历史推送文章不相似,使用所述候选文章关键词语补充构建所述有向有环图。
8.一种push推送相似文章判定装置,其特征在于,所述装置包括:
选取模块,获取与用户匹配度最高的前N篇文章作为候选文章;
获取模块,用于获取历史推送文章;
相似度计算模块,用于基于所述候选文章与所述历史推送文章,计算每一篇所述候选文章与所述历史推送文章的文章相似度;
去重模块,用于响应所述文章相似度小于或者等于预先设定的阈值的比较结果,去除与所述历史推送文章重复的候选文章。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于盐城金堤科技有限公司,未经盐城金堤科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210658173.7/1.html,转载请声明来源钻瓜专利网。