[发明专利]一种海量相似新闻查重甄选方法、系统及装置在审
申请号: | 201711350335.6 | 申请日: | 2017-12-15 |
公开(公告)号: | CN108280127A | 公开(公告)日: | 2018-07-13 |
发明(设计)人: | 张毅 | 申请(专利权)人: | 广州艾媒数聚信息咨询股份有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 广州嘉权专利商标事务所有限公司 44205 | 代理人: | 胡辉 |
地址: | 510006 广东省广州*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 系统及装置 新闻文章 重结果 工作效率 文章结构 新闻媒体 新闻源 发送 应用 保证 | ||
1.一种海量相似新闻查重甄选方法,其特征在于,包括以下步骤:
从各个新闻源中获取新闻文章;
对获取的新闻文章进行快速查重处理和关键词查重处理,得到查重结果;
将查重结果发送至编辑进行处理。
2.根据权利要求1所述的一种海量相似新闻查重甄选方法,其特征在于:所述的快速查重处理,这一步骤具体包括:
对新闻文章进行分词,得到特征单词;
将得到的特征单词进行去掉噪音词处理后,根据预设的规则对每个词设置对应的权重;
对特征单词进行哈希值计算,得到每个特征单词对应的哈希值;
根据各特征单词对应的哈希值和权值,进行加权计算得到各特征单词对应的加权数字串;
将各特征单词的加权数字串进行累加,得到该新闻文章对应的序列值;
对该新闻文章对应的序列值进行降维处理,得到该新闻文章对应的文章签名;
根据该新闻文章的文章签名和文章长度,查找与该新闻文章重复的新闻文章,得到查重结果。
3.根据权利要求1所述的一种海量相似新闻查重甄选方法,其特征在于:所述的关键词查重处理,这一步骤具体包括:
对获取的新闻文章中的文章内容和文章标题进行结巴分词处理,得到分词结果;
统计分词结果中各个词的词频,并对词频最高的N个词进行记录为该新闻文章的特征词并保存至数据库中,其中N为预设值;
对需要查重的新闻文章的特征词与数据库中各新闻文章的特征词进行重合度检测,将重合度超过预设重合阈值的新闻文章认为重复,得出查重结果。
4.根据权利要求1所述的一种海量相似新闻查重甄选方法,其特征在于:还包括步骤:
当进行编辑时,自动对编辑中的新闻文章进行锁定,并将编辑完成的新闻文章变成手动发布状态;
定时从数据库中获取手动发布状态的新闻文章或历史已发布的新闻文章,并对其执行关键词查重处理。
5.一种海量相似新闻查重甄选系统,其特征在于,包括:
获取单元,用于从各个新闻源中获取新闻文章;
查重单元,用于对获取的新闻文章进行快速查重处理和关键词查重处理,得到查重结果;
结果发送单元,用于将查重结果发送至编辑进行处理。
6.根据权利要求5所述的一种海量相似新闻查重甄选系统,其特征在于:所述查重单元中的快速查重处理,具体包括:
快速分词单元用于,用于对新闻文章进行分词,得到特征单词;
单词处理单元,用于将得到的特征单词进行去掉噪音词处理后,根据预设的规则对每个词设置对应的权重;
哈希计算单元,用于对特征单词进行哈希值计算,得到每个特征单词对应的哈希值;
加权计算单元,用于根据各特征单词对应的哈希值和权值,进行加权计算得到各特征单词对应的加权数字串;
累加单元,用于将各特征单词的加权数字串进行累加,得到该新闻文章对应的序列值;
降维单元,用于对该新闻文章对应的序列值进行降维处理,得到该新闻文章对应的文章签名;
签名查找单元,用于根据该新闻文章的文章签名和文章长度,查找与该新闻文章重复的新闻文章,得到查重结果。
7.根据权利要求5所述的一种海量相似新闻查重甄选系统,其特征在于:所述查重单元中的关键词查重处理,具体包括:
对获取的新闻文章中的文章内容和文章标题进行结巴分词处理,得到分词结果;
统计分词结果中各个词的词频,并对词频最高的N个词进行记录为该新闻文章的特征词并保存至数据库中,其中N为预设值;
对需要查重的新闻文章的特征词与数据库中各新闻文章的特征词进行重合度检测,将重合度超过预设重合阈值的新闻文章认为重复,得出查重结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州艾媒数聚信息咨询股份有限公司,未经广州艾媒数聚信息咨询股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711350335.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种大数据分析处理方法
- 下一篇:一种展示个性化页面的方法及设备