[发明专利]一种基于融合模型算法的文本去重方法在审
申请号: | 201910707778.9 | 申请日: | 2019-08-01 |
公开(公告)号: | CN110442679A | 公开(公告)日: | 2019-11-12 |
发明(设计)人: | 王慜骊;林路;陈芃;郏维强 | 申请(专利权)人: | 信雅达系统工程股份有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F17/27 |
代理公司: | 杭州裕阳联合专利代理有限公司 33289 | 代理人: | 姚宇吉 |
地址: | 310000 浙江省杭州市*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 去重 预处理 模型算法 去除 贪婪算法 新闻文本 数据量 相似度 融合 保留 工作量 匹配 转换 检验 分析 | ||
本发明公开了一种基于融合模型算法的文本去重方法,包括以下步骤,新闻预处理,检验一致性,计算任意两篇新闻的两两之间的相似度,使用混合贪婪算法进行文本去重。本发明中,实现自动对文本进行预处理,包括对文本进行转换、匹配,和权威性分析,只保留权威媒体的新闻,提高新闻文本的权威性,同时便于降低后序对文本去重的工作量,其次,实现去除标题和正文的一致性的文本,同时实现去除相似文本,最大保留了去重后可以用的数据量。
技术领域
本发明涉及文本去重方法技术领域,尤其涉及一种基于融合模型算法的文本去重方法。
背景技术
新闻情数据来自各大门户网站,因为对同一事件的报道各大网站可能会相互转载引用,也可能用不同的措辞描述同一事件,内容相似包括文字相似,语义相似的概率很高,会给阅读,统计和分析带来较大噪声干扰。
基于语义的去重,一直是个难题,同样一个意思,可以有很多种说法,这些句子在语义上是十分接近的,目前在相似新闻去重方面多为通过使用人工运营相似新闻去重技术方案,这种方法成本高昂,有遗漏风险,且效率地下。
发明内容
本发明的目的是为了解决现有技术中存在的缺点,而提出的一种基于融合模型算法的文本去重方法。
为了实现上述目的,本发明采用了如下技术方案:一种基于融合模型算法的文本去重方法,包括以下步骤:
S1:新闻预处理,检验一致性;
S2:计算任意两篇新闻的两两之间的相似度;
S3:使用混合贪婪算法进行文本去重。
作为上述技术方案的进一步描述:
所述S1步骤中新闻预处理,检验一致性的方法包括以下步骤:
S1.1:针对原始文本将html文本转换为纯文本;
S1.2:完成匹配CDATA,匹配Script,匹配style,处理换行,匹配HTML标签,匹配HTML注释,去除CDATA,Script,style,HTML标签,HTML注释,去掉多余空行,替换常用的HTML实体;
S1.3:通过MD5给标题生成数字证书,验证标题和正文的一致性,去除完全一致的新闻,使用预设的新闻媒体的权威性的评分,只保留权威媒体的新闻。
作为上述技术方案的进一步描述:
所述html指超文本标记语言,且html为标准通用标记语言下的一个应用,其中,超文本就是指页面内可以包含图片、链接,甚至音乐、程序等非文字元素,所述超文本标记语言的结构包括“头”部分和“主体”部分,其中“头”部提供关于网页的信息,“主体”部分提供网页的具体内容。
作为上述技术方案的进一步描述:
所述MD5是一种消息摘要算法,MD5为一种广泛使用的密码散列函数,可以产生出一个128位、16字节的散列值,MD5用于将整个文件当作一个大文本信息,通过其不可逆的字符串变换算法,产生了这个唯一的MD5信息摘要,确保信息传输完整一致。
作为上述技术方案的进一步描述:
所述S2步骤中计算任意两篇新闻的两两之间的相似度方法包括以下步骤:
S2.1:对正文进行中文分词,使用预设的停用词库对正文进行去除停用词;
S2.2:以词为单位,根据TF-IDF的特征处理建立词袋模型,实现文本向量化;
S2.3:正文取权重最大的前M个作为关键词,并分别记录其权值,其次取权重次大的前N个词作为描述词,并分别记录其权值;
S2.4:使用hash算法把标题,关键词句,描述词句里面的每个词变成hash值;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于信雅达系统工程股份有限公司,未经信雅达系统工程股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910707778.9/2.html,转载请声明来源钻瓜专利网。