[发明专利]一种基于融合模型算法的文本去重方法在审
申请号: | 201910707778.9 | 申请日: | 2019-08-01 |
公开(公告)号: | CN110442679A | 公开(公告)日: | 2019-11-12 |
发明(设计)人: | 王慜骊;林路;陈芃;郏维强 | 申请(专利权)人: | 信雅达系统工程股份有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F17/27 |
代理公司: | 杭州裕阳联合专利代理有限公司 33289 | 代理人: | 姚宇吉 |
地址: | 310000 浙江省杭州市*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于融合模型算法的文本去重方法,包括以下步骤,新闻预处理,检验一致性,计算任意两篇新闻的两两之间的相似度,使用混合贪婪算法进行文本去重。本发明中,实现自动对文本进行预处理,包括对文本进行转换、匹配,和权威性分析,只保留权威媒体的新闻,提高新闻文本的权威性,同时便于降低后序对文本去重的工作量,其次,实现去除标题和正文的一致性的文本,同时实现去除相似文本,最大保留了去重后可以用的数据量。 | ||
搜索关键词: | 文本 去重 预处理 模型算法 去除 贪婪算法 新闻文本 数据量 相似度 融合 保留 工作量 匹配 转换 检验 分析 | ||
【主权项】:
1.一种基于融合模型算法的文本去重方法,其特征在于,包括以下步骤:S1:新闻预处理,检验一致性;S2:计算任意两篇新闻的两两之间的相似度;S3:使用混合贪婪算法进行文本去重。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于信雅达系统工程股份有限公司,未经信雅达系统工程股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910707778.9/,转载请声明来源钻瓜专利网。