[发明专利]一种基于边界识别与组合的裁判文书证据抽取方法在审
申请号: | 201910816186.0 | 申请日: | 2019-08-30 |
公开(公告)号: | CN110516257A | 公开(公告)日: | 2019-11-29 |
发明(设计)人: | 黄瑞章;杨健;丁志远;陈艳平;秦永彬 | 申请(专利权)人: | 贵州大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F16/35;G06F16/33;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 52100 贵阳中新专利商标事务所 | 代理人: | 李亮;程新敏<国际申请>=<国际公布>= |
地址: | 550025 贵州省贵*** | 国省代码: | 贵州;52 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 证据 抽取 边界识别 裁判 传统机器 性能比较 序列标注 传统的 稀疏 分类 学习 | ||
本发明公开了一种一种基于边界识别与组合的裁判文书证据抽取方法。为了有效抽取裁判文书里的证据,本发明分为三步:(1)使用RNNs识别证据实体的开始边界和结束边界。(2)组合所有开始边界和结束边界形成候选证据实体。(3)使用CNN对候选证据进行分类,识别真实的证据。基于边界识别与组合的方法弥补了传统的序列标注模型在长实体的识别上性能比较低的缺点,并且在一定程度上避免传统机器学习方法产生的特征稀疏问题,从而提高了裁判文书中证据抽取的性能。
技术领域
本发明涉及自然语言处理和机器学习领域,特别涉及到一种基于边界识别与组合的裁判文书证据抽取方法。
背景技术
证据是司法领域的一种命名实体,证据抽取是一项十分重要的工作。裁判文书中的证据是法官进行量刑的基础。根据法院审判的要求,法官量刑必须要有证据支撑。正常情况下,裁判文书中的证据列表和案件卷宗里的证据目录要一一对应。证据过多或过少都会导致法官量刑的轻判或重判。所以,通过抽取裁判文书中的证据列表和案件卷宗里的证据目录进行对比,可以对案件审判质量进行评估。通过裁判文书证据抽取,可以支撑“智慧法院”建设,能够使得司法审判、诉讼服务和司法管理高度信息化,实现全方位智能服务的人民法院建设、运行与管理。
在裁判文书的证据表达式里,证据命名实体都很长,如:“李四的身份证”、“证人张三的证言证词”、“银行取款业务回执单”、“银行转账流水记录”等,通过分析,裁判文书中的证据最长有13个字符。传统的序列标注模型在长实体的识别上性能都比较低。通过分析裁判文书中的证据,我们发现相同类型的证据在同类型的裁判文书中重复出现,如:民事案件里的身份证、户口本、身份证复印、户口本复印件、银行转账记录,刑事案件里的鉴定报告、辨认笔录、照片、证人张三的证言等,这些词经常都作为证据重复出现。
发明内容
针对现有发明材料的不足,本发明提供了一种基于边界识别与组合的裁判文书证据抽取方法,它弥补了传统的序列标注模型在长实体的识别上性能比较低的缺点,并且在一定程度上避免传统机器学习方法产生的特征稀疏问题,从而提高了裁判文书中证据抽取的性能。。
为实现以上目的,本发明通过以下技术方案予以实现:基于边界识别与组合的裁判文书证据抽取方法,包括如下步骤:
步骤1:基于神经网络模型识别裁判文书证据的开始边界和结束边界;
步骤2:组合所有开始边界和结束边界,形成候选证据实体;
步骤3:构建基于卷积神经网络分类器,对候选证据进行分类,识别真实证据。
步骤1中所述的神经网络模型为基于循环神经网络构建的模型。
步骤2中所述的边界组合的具体步骤如下:
步骤1)根据边界识别模型识别的标签序列结果,寻找序列里的开始边界;
步骤2)以每个开始边界的位置为准,向前组合证据边界序列的开始边界;
步骤3)开始边界和结束边界之间的字符-包含开始边界和结束边界,作为证据候选实体。
所述步骤3的主要目的是构建多核卷积神经网络分类器,以候选证据实体集为输入,通过证据分类,识别真实的证据。
本发明同现有技术相比,为了有效抽取裁判文书里的证据,本发明分为三步:(1)使用RNNs识别证据实体的开始边界和结束边界。(2)组合所有开始边界和结束边界形成候选证据实体。(3)使用CNN对候选证据进行分类,识别真实的证据。基于边界识别与组合的方法弥补了传统的序列标注模型在长实体的识别上性能比较低的缺点,并且在一定程度上避免传统机器学习方法产生的特征稀疏问题,从而提高了裁判文书中证据抽取的性能。证据抽取结果将有益于智慧法院建设,能够使得司法审判、诉讼服务和司法管理高度信息化,实现全方位智能服务的人民法院建设、运行与管理。
附图说明
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于贵州大学,未经贵州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910816186.0/2.html,转载请声明来源钻瓜专利网。