[发明专利]一种基于融合模型算法的文本去重方法在审

申请号：	201910707778.9	申请日：	2019-08-01
公开（公告）号：	CN110442679A	公开（公告）日：	2019-11-12
发明（设计）人：	王慜骊;林路;陈芃;郏维强	申请（专利权）人：	信雅达系统工程股份有限公司
主分类号：	G06F16/33	分类号：	G06F16/33;G06F17/27
代理公司：	杭州裕阳联合专利代理有限公司 33289	代理人：	姚宇吉
地址：	310000 浙江省杭州市***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	文本去重预处理模型算法去除贪婪算法新闻文本数据量相似度融合保留工作量匹配转换检验分析
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于融合模型算法的文本去重方法，包括以下步骤，新闻预处理，检验一致性，计算任意两篇新闻的两两之间的相似度，使用混合贪婪算法进行文本去重。本发明中，实现自动对文本进行预处理，包括对文本进行转换、匹配，和权威性分析，只保留权威媒体的新闻，提高新闻文本的权威性，同时便于降低后序对文本去重的工作量，其次，实现去除标题和正文的一致性的文本，同时实现去除相似文本，最大保留了去重后可以用的数据量。

技术领域

本发明涉及文本去重方法技术领域，尤其涉及一种基于融合模型算法的文本去重方法。

背景技术

新闻情数据来自各大门户网站，因为对同一事件的报道各大网站可能会相互转载引用，也可能用不同的措辞描述同一事件，内容相似包括文字相似，语义相似的概率很高，会给阅读，统计和分析带来较大噪声干扰。

基于语义的去重，一直是个难题，同样一个意思，可以有很多种说法，这些句子在语义上是十分接近的，目前在相似新闻去重方面多为通过使用人工运营相似新闻去重技术方案，这种方法成本高昂，有遗漏风险，且效率地下。

发明内容

本发明的目的是为了解决现有技术中存在的缺点，而提出的一种基于融合模型算法的文本去重方法。

为了实现上述目的，本发明采用了如下技术方案：一种基于融合模型算法的文本去重方法，包括以下步骤：

S1：新闻预处理，检验一致性；

S2：计算任意两篇新闻的两两之间的相似度；

S3：使用混合贪婪算法进行文本去重。

作为上述技术方案的进一步描述：