[发明专利]文本的去重方法及装置、计算机存储介质、电子设备在审
申请号: | 202111342221.3 | 申请日: | 2021-11-12 |
公开(公告)号: | CN114090798A | 公开(公告)日: | 2022-02-25 |
发明(设计)人: | 潘仕江 | 申请(专利权)人: | 盐城金堤科技有限公司 |
主分类号: | G06F16/383 | 分类号: | G06F16/383;G06F16/903;G06Q50/18 |
代理公司: | 北京合智同创知识产权代理有限公司 11545 | 代理人: | 李杰 |
地址: | 224000 江苏省盐城市盐南高新区科城街道*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 方法 装置 计算机 存储 介质 电子设备 | ||
本申请实施例提供了一种文本的去重方法及装置、计算机存储介质、电子设备,文本的去重方法包括:确定关联于同一司法公告案号的多个待处理文本,所述待处理文本包括司法事件的特征描述数据;从所述特征描述数据中提取描述司法事件的时间特征;基于提取到的所述时间特征,确定重复的待处理文本并对其进行去重处理,从而实现了对能分析出司法数据的待处理文本进行了去重处理。
技术领域
本申请涉及数据处理技术领域,具体涉及一种文本的去重方法及装置、计算机存储介质、电子设备。
背景技术
基于大数据解决方案,通过对收集的企业数据进行清洗分析、整理等一系列深度挖掘,进而提供数据综合查询或分类查询服务,比如查询企业相关的信息,包括司法数据等。基于司法数据可以为企业后续的合作伙伴遴选中规避风险,分析对方企业信用以判断是否进一步合作等等。然而,由于互联网数据源众多,导致能分析出司法数据的数据存在大量重复的情况。
发明内容
本申请实施例提供一种文本的去重方法及装置、计算机存储介质、电子设备,用以克服或者缓解现有技术中存在的上述技术问题。
本申请采用的技术方案为:
一种文本的去重方法,其包括:
确定关联于同一司法公告案号的多个待处理文本,所述待处理文本包括司法事件的特征描述数据;
从所述特征描述数据中提取描述司法事件的时间特征;
基于提取到的所述时间特征,确定重复的待处理文本并对其进行去重处理。
可选地,一实施例中,所述从所述特征描述数据中提取描述司法事件的时间特征,包括:基于用于提取所述时间特征的正则表达式,在所述特征描述数据进行正则匹配,以从中提取描述司法事件的时间特征。
可选地,一实施例中,所述基于提取到的所述时间特征,确定重复的待处理文本并对其进行去重处理,包括:
基于提取到的所述时间特征,确定重复的待处理文本,并对重复的待处理文本添加第一标注;
基于添加的所述第一标注,对重复的待处理文本进行去重处理。
可选地,一实施例中,所述基于提取到的所述时间特征,确定重复的待处理文本并对其进行去重处理,包括:
确定从不同特征描述数据提取到的时间特征之间的相似度;
响应于相似度小于设定相似度阈值的判定结果,将对应的至少两个待处理文本判定为重复的待处理文本,并对其进行去重处理。
可选地,一实施例中,所述确定从不同特征描述数据提取到的时间特征之间的相似度,包括:基于设定的特征描述周期,统计确定从不同特征描述数据提取到的在同一特征描述周期内的时间特征之间的相似度。
可选地,一实施例中,所述方法还包括:
针对基于提取到的所述时间特征,初步判定为非重复的待处理文本,从非重复的待处理文本的特征描述数据中提取描述司法事件的人员特征;
基于提取到的所述人员特征,确定所述非重复的待处理文本中实际重复的待处理文本,并对其进行去重处理。
可选地,一实施例中,基于提取到的所述人员特征,确定所述非重复的待处理文本中实际重复的待处理文本,并对其进行去重处理,包括:
基于提取到的所述人员特征,确定所述非重复的待处理文本中实际重复的待处理文本,并对实际重复的待处理文本添加第二标注;
基于添加的所述第二标注,对实际重复的待处理文本进行去重处理。
可选地,一实施例中,所述基于添加的所述第二标注,对实际重复的待处理文本进行去重处理,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于盐城金堤科技有限公司,未经盐城金堤科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111342221.3/2.html,转载请声明来源钻瓜专利网。