[发明专利]一种重复案件查找方法和装置、计算机可读存储介质有效
申请号: | 201910325367.3 | 申请日: | 2019-04-22 |
公开(公告)号: | CN110110325B | 公开(公告)日: | 2022-12-20 |
发明(设计)人: | 王一淏 | 申请(专利权)人: | 北京明智和术科技有限公司 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F16/33;G06Q50/18 |
代理公司: | 北京安信方达知识产权代理有限公司 11262 | 代理人: | 陶丽;栗若木 |
地址: | 100124 北京市朝阳区高碑店乡高碑店村民*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 重复 案件 查找 方法 装置 计算机 可读 存储 介质 | ||
1.一种重复案件查找方法,其特征在于,包括:
获取多个案件的案情描述文本集,所述案情描述文本集包括案件编码信息和案情描述信息,所述案情描述信息包括以下一种或多种信息:参与人、发生日期;
对所述案情描述文本集进行局部敏感哈希算法处理,得到相似度大于或等于预设相似度阈值的一个或多个案件集合,并对得到的案件集合进行合并处理,使得合并后的案件集合之间无交集;
剔除所述合并后的案件集合中与其他案件没有相同参与人和/或发生日期不同的案件,得到一个或多个重复案件集合;
所述案情描述信息还包括以下一种或多种信息:录入时间、发生时间、发生地点、事件描述;
所述对所述案情描述文本集进行局部敏感哈希算法处理,得到相似度大于或等于预设相似度阈值的一个或多个案件集合,包括:对每个所述案件的案情描述信息进行分词,并对每个分词计算局部敏感哈希值,得到每个所述案件的案情描述信息的分词哈希值集合;计算每个所述案件的案情描述信息的分词哈希值集合和与该所述案件的录入时间在预设时间宽度范围内的其他案件的案情描述信息的分词哈希值集合的最小哈希系数,所述最小哈希系数为两个分词哈希值集合的哈希值交集除以所述两个分词哈希值集合的哈希值并集;当最小哈希系数高于所述预设相似度阈值时,将所述两个分词哈希值集合对应的两个案件的案件编码保存为一个案件集合;
所述剔除所述案件集合中与其他案件没有相同参与人和/或发生日期不同的案件,得到一个或多个重复案件集合,包括:对所述合并后的案件集合中的案件两两进行比较,判断比较的两个案件是否包含参与人信息,如果包含参与人信息,则判断所述参与人信息中是否包含部分或全部相同的参与人;如果比较的两个案件均不包含参与人信息,或者均包含参与人信息且包含的参与人信息中有部分或全部相同的参与人,则进一步判断所述比较的两个案件是否包含发生日期信息,如果包含发生日期信息,则判断所述发生日期信息是否在同一天;如果比较的两个案件均不包含发生日期信息,或者均包含发生日期信息且包含的发生日期信息在同一天,则将所述比较的两个案件保存为重复案件集合。
2.根据权利要求1所述的重复案件查找方法,其特征在于,若一个案件集合为{案件A,案件B},另一个案件集合为{案件B,案件C},则所述对得到的案件集合进行合并处理,使得合并后的案件集合之间无交集具体为,将案件集合{案件A,案件B}和案件集合{案件B,案件C}合并为案件集合{案件A,案件B,案件C}。
3.根据权利要求1所述的重复案件查找方法,其特征在于,在对所述合并后的案件集合中的案件两两比较结束之后,所述方法还包括:
对得到的重复案件集合进行合并处理,使得合并后的重复案件集合之间无交集。
4.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现如权利要求1至权利要求3中任一项所述的重复案件查找方法的步骤。
5.一种重复案件查找装置,其特征在于,包括处理器及存储器,其中:所述处理器用于执行存储器中存储的程序,以实现如权利要求1至权利要求3中任一项所述的重复案件查找方法的步骤。
6.一种重复案件查找装置,其特征在于,包括获取模块、哈希处理模块和剔除模块,其中:
所述获取模块,用于获取多个案件的案情描述文本集,所述案情描述文本集包括案件编码信息和案情描述信息,所述案情描述信息包括以下一种或多种信息:参与人、发生日期;
所述哈希处理模块,用于对所述案情描述文本集进行局部敏感哈希算法处理,得到相似度大于或等于预设相似度阈值的一个或多个案件集合,并对得到的案件集合进行合并处理,使得合并后的案件集合之间无交集;
所述剔除模块,用于剔除所述合并后的案件集合中与其他案件没有相同参与人和/或发生日期不同的案件,得到一个或多个重复案件集合;
所述案情描述信息还包括以下一种或多种信息:录入时间、发生时间、发生地点、事件描述;
所述哈希处理模块的对所述案情描述文本集进行局部敏感哈希算法处理,得到相似度大于或等于预设相似度阈值的一个或多个案件集合,包括:对每个所述案件的案情描述信息进行分词,并对每个分词计算局部敏感哈希值,得到每个所述案件的案情描述信息的分词哈希值集合;计算每个所述案件的案情描述信息的分词哈希值集合和与该所述案件的录入时间在预设时间宽度范围内的其他案件的案情描述信息的分词哈希值集合的最小哈希系数,所述最小哈希系数为两个分词哈希值集合的哈希值交集除以所述两个分词哈希值集合的哈希值并集;当最小哈希系数高于所述预设相似度阈值时,将所述两个分词哈希值集合对应的两个案件的案件编码保存为一个案件集合;
所述剔除模块,具体用于:对所述合并后的案件集合中的案件两两进行比较,判断比较的两个案件是否包含参与人信息,如果包含参与人信息,则判断所述参与人信息中是否包含部分或全部相同的参与人;如果比较的两个案件均不包含参与人信息,或者均包含参与人信息且包含的参与人信息中有部分或全部相同的参与人,则进一步判断所述比较的两个案件是否包含发生日期信息,如果包含发生日期信息,则判断所述发生日期信息是否在同一天;如果比较的两个案件均不包含发生日期信息,或者均包含发生日期信息且包含的发生日期信息在同一天,则将所述比较的两个案件保存为重复案件集合。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京明智和术科技有限公司,未经北京明智和术科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910325367.3/1.html,转载请声明来源钻瓜专利网。