[发明专利]一种海量相似新闻查重甄选方法、系统及装置在审

申请号：	201711350335.6	申请日：	2017-12-15
公开（公告）号：	CN108280127A	公开（公告）日：	2018-07-13
发明（设计）人：	张毅	申请（专利权）人：	广州艾媒数聚信息咨询股份有限公司
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	广州嘉权专利商标事务所有限公司 44205	代理人：	胡辉
地址：	510006 广东省广州***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	系统及装置新闻文章重结果工作效率文章结构新闻媒体新闻源发送应用保证
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种海量相似新闻查重甄选方法，其特征在于，包括以下步骤：

从各个新闻源中获取新闻文章；

对获取的新闻文章进行快速查重处理和关键词查重处理，得到查重结果；

将查重结果发送至编辑进行处理。

2.根据权利要求1所述的一种海量相似新闻查重甄选方法，其特征在于：所述的快速查重处理，这一步骤具体包括：

对新闻文章进行分词，得到特征单词；

将得到的特征单词进行去掉噪音词处理后，根据预设的规则对每个词设置对应的权重；

对特征单词进行哈希值计算，得到每个特征单词对应的哈希值；

根据各特征单词对应的哈希值和权值，进行加权计算得到各特征单词对应的加权数字串；

将各特征单词的加权数字串进行累加，得到该新闻文章对应的序列值；

对该新闻文章对应的序列值进行降维处理，得到该新闻文章对应的文章签名；

根据该新闻文章的文章签名和文章长度，查找与该新闻文章重复的新闻文章，得到查重结果。

3.根据权利要求1所述的一种海量相似新闻查重甄选方法，其特征在于：所述的关键词查重处理，这一步骤具体包括：

对获取的新闻文章中的文章内容和文章标题进行结巴分词处理，得到分词结果；

统计分词结果中各个词的词频，并对词频最高的N个词进行记录为该新闻文章的特征词并保存至数据库中，其中N为预设值；

对需要查重的新闻文章的特征词与数据库中各新闻文章的特征词进行重合度检测，将重合度超过预设重合阈值的新闻文章认为重复，得出查重结果。

4.根据权利要求1所述的一种海量相似新闻查重甄选方法，其特征在于：还包括步骤：

当进行编辑时，自动对编辑中的新闻文章进行锁定，并将编辑完成的新闻文章变成手动发布状态；

定时从数据库中获取手动发布状态的新闻文章或历史已发布的新闻文章，并对其执行关键词查重处理。

5.一种海量相似新闻查重甄选系统，其特征在于，包括：

获取单元，用于从各个新闻源中获取新闻文章；

查重单元，用于对获取的新闻文章进行快速查重处理和关键词查重处理，得到查重结果；

结果发送单元，用于将查重结果发送至编辑进行处理。

6.根据权利要求5所述的一种海量相似新闻查重甄选系统，其特征在于：所述查重单元中的快速查重处理，具体包括：

快速分词单元用于，用于对新闻文章进行分词，得到特征单词；

单词处理单元，用于将得到的特征单词进行去掉噪音词处理后，根据预设的规则对每个词设置对应的权重；

哈希计算单元，用于对特征单词进行哈希值计算，得到每个特征单词对应的哈希值；

加权计算单元，用于根据各特征单词对应的哈希值和权值，进行加权计算得到各特征单词对应的加权数字串；

累加单元，用于将各特征单词的加权数字串进行累加，得到该新闻文章对应的序列值；

降维单元，用于对该新闻文章对应的序列值进行降维处理，得到该新闻文章对应的文章签名；

签名查找单元，用于根据该新闻文章的文章签名和文章长度，查找与该新闻文章重复的新闻文章，得到查重结果。

7.根据权利要求5所述的一种海量相似新闻查重甄选系统，其特征在于：所述查重单元中的关键词查重处理，具体包括：

对获取的新闻文章中的文章内容和文章标题进行结巴分词处理，得到分词结果；

统计分词结果中各个词的词频，并对词频最高的N个词进行记录为该新闻文章的特征词并保存至数据库中，其中N为预设值；

对需要查重的新闻文章的特征词与数据库中各新闻文章的特征词进行重合度检测，将重合度超过预设重合阈值的新闻文章认为重复，得出查重结果。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于广州艾媒数聚信息咨询股份有限公司，未经广州艾媒数聚信息咨询股份有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201711350335.6/1.html，转载请声明来源钻瓜专利网。

专利分类

专利文献下载