[发明专利]裁判文书的检索方法及装置有效
申请号: | 201710643318.5 | 申请日: | 2017-07-31 |
公开(公告)号: | CN110019659B | 公开(公告)日: | 2021-07-30 |
发明(设计)人: | 石鹏;范浩文 | 申请(专利权)人: | 北京国双科技有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F40/289 |
代理公司: | 北京康信知识产权代理有限责任公司 11240 | 代理人: | 赵囡囡;褚敏 |
地址: | 100083 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 裁判 文书 检索 方法 装置 | ||
1.一种裁判文书的检索方法,其特征在于,包括:
获取检索文本;
对所述检索文本进行分词处理,得到分词集合,其中,所述分词集合中包括多个分词;
标记所述分词集合中的每个分词对应的词性;
对所述分词集合中预设词性和实体词的分词进行过滤,得到过滤后的分词集合;
基于所述过滤后的分词集合中分词检索目标裁判文书;
其中,基于所述过滤后的分词集合中分词检索目标裁判文书包括:
确定所述过滤后的分词集合中分词的所占内存空间;
基于所述过滤后的分词集合中分词的所占内存空间选择目标算法;
采用所述目标算法计算裁判文书库中每篇裁判文书对应的分值;
获取分值满足预设值的裁判文书;
将分值满足预设值的裁判文书作为所述目标裁判文书;
其中,若所述过滤后的分词集合中分词的所占内存空间未超过预设值,或者,若所述过滤后的分词集合中分词的数量未超过预设数量,将最长公共子序列算法作为所述目标算法;
采用所述目标算法计算裁判文书库中每篇裁判文书对应的分值包括:
对于每篇裁判文书,执行如下操作:
对所述裁判文书进行分词,得到所述裁判文书的分词结果;
将所述分词结果中的分词与所述过滤后的分词集合中分词以行和列组成矩阵;
分析所述矩阵的节点每行和每列的分词是否相同;
在所述矩阵的节点中存在行和列的分词相同的情况下,将对该节点进行标记;
基于所述矩阵的节点中的标记,获取所述裁判文书与所述过滤后的分词集合中分词的最长公共子串;
基于所述裁判文书与所述过滤后的分词集合中分词的最长公共子串确定所述裁判文书对应的分值。
2.根据权利要求1所述的方法,其特征在于,基于所述过滤后的分词集合中分词的所占内存空间选择目标算法包括:
判断所述过滤后的分词集合中分词的所占内存空间是否超过预设值;
若所述过滤后的分词集合中分词的所占内存空间超过预设值,将余弦向量夹角算法作为所述目标算法;
或者,
判断所述过滤后的分词集合中分词的数量是否超过预设数量;
若所述过滤后的分词集合中分词的数量超过所述预设数量,将余弦向量夹角算法作为所述目标算法。
3.根据权利要求2所述的方法,其特征在于,当所述目标算法为余弦向量夹角算法时,采用所述目标算法计算裁判文书库中每篇裁判文书对应的分值包括:
对于每篇裁判文书,执行如下操作:
对所述裁判文书进行分词,得到所述裁判文书的分词结果;
确定在所述裁判文书的分词结果和所述过滤后的分词集合中都出现的相同的词;
统计每种所述相同的词分别在所述裁判文书的分词结果和所述过滤后的分词集合中出现的次数;
根据所述相同的词分别在所述裁判文书的分词结果和过滤后的分词集合中出现的次数,确定所述裁判文书和所述检索文本各自对应的向量;
采用余弦向量夹角算法,基于所述裁判文书和检索文本各自对应的向量,确定所述裁判文书和所述检索文本的相似度;
基于所述裁判文书和所述检索文本的相似度确定所述裁判文书对应的分值。
4.根据权利要求3所述的方法,其特征在于,在对所述裁判文书进行分词得到所述裁判文书的分词结果之后、确定在所述裁判文书的分词结果和所述过滤后的分词集合中都出现的相同的词之前,所述方法还包括:
对所述裁判文书的分词结果进行过滤,得到所述裁判文书的过滤后的分词结果;
则所述确定在所述裁判文书的分词结果和所述过滤后的分词集合中都出现的相同的词包括:确定在所述裁判文书的过滤后的分词结果和所述过滤后的分词集合中都出现的相同的词;
所述统计每种所述相同的词分别在所述裁判文书的分词结果和所述过滤后的分词集合中出现的次数包括:统计每种所述相同的词分别在所述裁判文书的过滤后的分词结果和所述过滤后的分词集合中出现的次数;
所述根据所述相同的词分别在所述裁判文书的分词结果和过滤后的分词集合中出现的次数、确定所述裁判文书和所述检索文本各自对应的向量包括:根据所述相同的词分别在所述裁判文书的过滤后的分词结果和过滤后的分词集合中出现的次数,确定所述裁判文书和所述检索文本各自对应的向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京国双科技有限公司,未经北京国双科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710643318.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:检索项的生成方法及相关装置
- 下一篇:一种相似文本检测方法及装置