[发明专利]裁判文书的检索方法及装置有效
申请号: | 201710643318.5 | 申请日: | 2017-07-31 |
公开(公告)号: | CN110019659B | 公开(公告)日: | 2021-07-30 |
发明(设计)人: | 石鹏;范浩文 | 申请(专利权)人: | 北京国双科技有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F40/289 |
代理公司: | 北京康信知识产权代理有限责任公司 11240 | 代理人: | 赵囡囡;褚敏 |
地址: | 100083 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 裁判 文书 检索 方法 装置 | ||
本申请公开了一种裁判文书的检索方法及装置。该方法包括:获取检索文本;对检索文本进行分词处理,得到分词集合,其中,分词集合中包括多个分词;标记分词集合中的每个分词对应的词性;对分词集合中预设词性和实体词的分词进行过滤,得到过滤后的分词集合;基于过滤后的分词集合中分词检索目标裁判文书。通过本申请,解决了相关技术中基于语义检索裁判文书的准确率较低的问题。
技术领域
本申请涉及裁判文书检索技术领域,具体而言,涉及一种裁判文书的检索方法及装置。
背景技术
相关技术中基于语义对裁判文书的检索,检索流程为:对检索内容进行分词,将分词结果在支持lunce的数据库中进行匹配打分检索,根据打分结果展示排名在前的裁判文书。例如:检索内容为“我被张三打了”,分词结果为我、被、张三、打、了、打了,再对基于分词结果检索到的裁判文书进行打分,根据分值高低对裁判文书进行排名,其实搜索的核心内容是被打,与“张三”、“我”、“了”并没有过多的关联,而检索到的某些裁判文书中存在大量的“张三”、“我”、“了”等词,同时不存在“被”、“打”等关键核心词语,会导致这些无关文书排名靠前,导致检索到的裁判文书并不准确,不符合用户预期。
针对相关技术中基于语义检索裁判文书的准确率较低的问题,目前尚未提出有效的解决方案。
发明内容
本申请的主要目的在于提供一种裁判文书的检索方法及装置,以解决相关技术中基于语义检索裁判文书的准确率较低的问题。
为了实现上述目的,根据本申请的一个方面,提供了一种裁判文书的检索方法。该方法包括:获取检索文本;对所述检索文本进行分词处理,得到分词集合,其中,所述分词集合中包括多个分词;标记所述分词集合中的每个分词对应的词性;对所述分词集合中预设词性和实体词的分词进行过滤,得到过滤后的分词集合;基于所述过滤后的分词集合中分词检索目标裁判文书。
进一步地,基于所述过滤后的分词集合中分词检索目标裁判文书包括:确定所述过滤后的分词集合中分词的所占内存空间;基于所述过滤后的分词集合中分词的所占内存空间选择目标算法;采用所述目标算法计算裁判文书库中每篇裁判文书对应的分值;获取分值满足预设值的裁判文书;将分值满足预设值的裁判文书作为所述目标裁判文书。
进一步地,基于所述过滤后的分词集合中分词的所占内存空间选择目标算法包括:判断所述过滤后的分词集合中分词的所占内存空间是否超过预设值;若所述过滤后的分词集合中分词的所占内存空间超过预设值,将余弦向量夹角算法作为所述目标算法;若所述过滤后的分词集合中分词的所占内存空间未超过预设值,将最长公共子序列算法作为所述目标算法,或者,判断所述过滤后的分词集合中分词的数量是否超过预设数量;若所述过滤后的分词集合中分词的数量超过所述预设数量,将余弦向量夹角算法作为所述目标算法;若所述过滤后的分词集合中分词的数量未超过所述预设数量,将最长公共子序列算法作为所述目标算法。
进一步地,当所述目标算法为余弦向量夹角算法时,采用所述目标算法计算裁判文书库中每篇裁判文书对应的分值包括:对于每篇裁判文书,执行如下操作:对所述裁判文书进行分词,得到所述裁判文书的分词结果;确定在所述裁判文书的分词结果和所述过滤后的分词集合中都出现的相同的词;统计每种所述相同的词分别在所述裁判文书的分词结果和所述过滤后的分词集合中出现的次数;根据所述相同的词分别在所述裁判文书的分词结果和过滤后的分词集合中出现的次数,确定所述裁判文书和所述检索文本各自对应的向量;采用余弦向量夹角算法,基于所述裁判文书和检索文本各自对应的向量,确定所述裁判文书和所述检索文本的相似度;基于所述裁判文书和所述检索文本的相似度确定所述裁判文书对应的分值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京国双科技有限公司,未经北京国双科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710643318.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:检索项的生成方法及相关装置
- 下一篇:一种相似文本检测方法及装置