[发明专利]一种新闻文档去重的方法、装置及存储介质有效
申请号: | 201810710477.7 | 申请日: | 2018-07-02 |
公开(公告)号: | CN110750963B | 公开(公告)日: | 2023-09-26 |
发明(设计)人: | 冯博琳;王秋森;刘斌生;吴中恒 | 申请(专利权)人: | 北京四维图新科技股份有限公司 |
主分类号: | G06F40/166 | 分类号: | G06F40/166;G06F40/284 |
代理公司: | 北京晋德允升知识产权代理有限公司 11623 | 代理人: | 王雪霞 |
地址: | 100028 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 新闻 文档 方法 装置 存储 介质 | ||
1.一种新闻文档去重的方法,其特征在于,该方法包括:
对新闻文档集中的每个道路新闻文档进行分词,得到每个道路新闻文档的词项;
计算所述每个道路新闻文档的词项在该道路新闻文档中的权重;
根据具有权重的所述每个道路新闻文档的词项得到每个道路新闻文档向量;
根据所述每个道路新闻文档向量计算所述每个道路新闻文档之间的第一相似度;
将所述第一相似度大于预设相似度阈值的道路新闻文档聚类成一个簇,并根据所述簇中的道路新闻文档之间的第一相似度确定簇心;其中,所述将所述第一相似度大于预设相似度阈值的道路新闻文档聚类成一个簇包括:遍历每个道路新闻文档;若当前道路新闻文档不存在于簇元素集,则将与所述当前道路新闻文档的第一相似度大于预设相似度阈值且不存在于所述簇元素集的道路新闻文档作为元素,与所述当前道路新闻文档建立一个簇;
根据所述簇的簇心标记出重复道路新闻文档,所述被标记的重复道路新闻文档用于去重。
2.根据权利要求1所述的新闻文档去重的方法,其特征在于,所述新闻文档集中存储的是所属行政区划内的道路新闻文档;该方法还包括:根据行政区划将所述新闻文档集归类到所属的行政区划中;
所述对新闻文档集中的每个道路新闻文档进行分词,具体包括:
针对属于同一行政区划内的新闻文档集中的每个道路新闻文档进行分词。
3.根据权利要求1或2所述的新闻文档去重的方法,其特征在于,所述计算所述每个道路新闻文档的词项在该道路新闻文档中的权重包括:
根据公式计算道路新闻文档的第k个词项wk在该道路新闻文档中的权重;
其中,为计算出的道路新闻文档的第k个词项wk在该道路新闻文档中的权重,TFIDF()为词频-逆向文件词频权重算法,kwwk为对提取到的第k个词项wk的权重提升系数;其中,
为新闻文档集中第j篇道路新闻文档,ci表示不同城市,i为城市序号,j为道路新闻文档集中道路新闻文档序号,k为道路新闻文档中词项序号,i、j、k均为正整数。
4.根据权利要求1所述的新闻文档去重的方法,其特征在于,所述根据所述簇中的道路新闻文档之间的第一相似度确定簇心包括:
在所述簇中的道路新闻文档个数大于预设阈值的情况下,将所述簇中每个道路新闻文档与簇中其他道路新闻文档之间的第一相似度分别相加,得到每个道路新闻文档的第二相似度;
将具有最大值的第二相似度对应的道路新闻文档作为簇心。
5.根据权利要求1所述的新闻文档去重的方法,其特征在于,所述道路新闻文档包括:历史道路新闻文档和新增道路新闻文档;所述根据所述簇的簇心标记出重复道路新闻文档包括:
若所述簇中的道路新闻文档均为新增道路新闻文档,则保留作为所述簇的簇心的新增道路新闻文档,并将除所述簇心之外的新增道路新闻文档标记为重复道路新闻文档;
若所述簇中的道路新闻文档包括历史道路新闻文档和新增道路新闻文档且簇心为历史道路新闻文档,则将新增道路新闻文档标记为重复道路新闻文档;
若所述簇中的道路新闻文档包括历史道路新闻文档和新增道路新闻文档且簇心为新增道路新闻文档,则将新增道路新闻文档标记为重复道路新闻文档。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京四维图新科技股份有限公司,未经北京四维图新科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810710477.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:天气数据转换方法和系统
- 下一篇:一种添加信息方法及相关装置