[发明专利]一种基于案情三元组信息的类案检索方法及系统有效
申请号: | 202010548781.3 | 申请日: | 2020-06-16 |
公开(公告)号: | CN111459973B | 公开(公告)日: | 2020-10-23 |
发明(设计)人: | 王竹;李鑫;翁洋;其他发明人请求不公开姓名 | 申请(专利权)人: | 四川大学;成都数之联科技有限公司 |
主分类号: | G06F16/242 | 分类号: | G06F16/242;G06F16/2455;G06Q50/18 |
代理公司: | 成都行之专利代理事务所(普通合伙) 51220 | 代理人: | 张超 |
地址: | 610000 四川*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 案情 三元 信息 检索 方法 系统 | ||
本发明公开了一种基于案情三元组信息的类案检索方法及系统:标注案情样本库中的案情样本得到标注样本库;将标注样本库输入模型进行训练得到三元组集合,三元组集合中的三元组包括案情实体和案情实体对应的要素;设置抽取案情的三元组评分模型;类案检索时,将待检索的案件的信息输入训练后的模型得到对应三元组集合;利用三元组评分模型对案情数据库中案情的三元组集合评分,将评分最高的一个或多个三元组集合对应的案情作为类案检索结果。本发明一种基于案情三元组信息的类案检索方法及系统,利用法律领域预训练语言模型和排序算法构造类案检索关键衡量标准,从法律专业的角度实现类案精准检索。
技术领域
本发明涉及自然语言处理技术,具体涉及一种基于案情三元组信息的类案检索方法及系统。
背景技术
目前类案检索主要使用的是关键字技术和tf-idf技术。由于案情事实部分篇幅较长,当前技术是篇章级别的(数个句子构成)段落语义匹配,并非是句子级别的语义匹配;同时同一个实体种类、同一个案情争议点的描述方式多样。基于以上原因现有方法不能提取出案情的有效信息,类案检索的准确率和召回率都不理想。
发明内容
本发明所要解决的技术问题是现有技术中的类案检索准确率和召回率都不理想,目的在于提供一种基于案情三元组信息的类案检索方法及系统,解决上述问题。
本发明通过下述技术方案实现:
一种基于案情三元组信息的类案检索方法,包括以下步骤:
S1:从案情数据库中选出案情样本得到案情样本库,标注案情样本库中的案情样本得到标注样本库,标注的内容包括案情实体和案情实体对应的要素;
S2:将标注样本库输入模型进行训练,得到案情实体识别模型和案情要素识别模型;
S3:利用案情实体识别模型识别案情数据库中案情的案情实体;利用案情要素识别模型识别案情数据库中案情的要素;根据案情数据库中案情的案情实体和案情实体对应的要素得到每一篇案情的三元组集合;三元组集合中三元组的元素包括案情实体和案情实体对应的要素;
S4:存储案情数据库中的案情和案情对应三元组集合,并设置抽取案情的三元组评分模型;
S5:类案检索时,将待检索案情输入训练后的模型得到待检索案情的三元组集合;利用三元组评分模型对案情数据库中案情的三元组集合和待检索案情的三元组集合的匹配程度评分;将案情数据库中评分符合预设要求的三元组集合对应的案情作为类案检索结果。
本发明应用时,首先标注样本,标注后的样本用于训练模型,标注的主要内容包括案情实体和要素,其中要素对应于案情实体。本发明中的案情实体是指法律案情中的实体,比如被告,婚生子女,财产等;要素是指影响结果的要素。将这些数据对应起来有利于后续模型的学习训练。通过学习这些数据,可以得到三元组集合,这个三元组集合是类案检索的依据。同时三元组集合还对应有评分模型,用于优选三元组集合。类案检索时,通过同样的操作提取待检索的案情的信息,并经过相同的规则处理得到待检索案情三元组集合,将其与案情数据库中的三元组集合比对实现类案检索。
进一步的,三元组集合中的三元组均设置有权重值;
根据三元组代表的要素在案情样本中的重要程度设置三元组的权重值。
进一步的,根据权重值设置三元组评分模型。
进一步的,模型采用正则和条件随机场抽取实体;采用法律领域的预训练模型和排序算法实现多标签分类;三元组要素由基于特定规则的实体和多标签组合得到。
本发明应用时,特定规则是指实体和标签是匹配对应关系,例如:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川大学;成都数之联科技有限公司,未经四川大学;成都数之联科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010548781.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:摄像光学镜头
- 下一篇:基于海鹰翼辉操作系统的安全编译方法及装置
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置