[发明专利]一种应用于裁判文书中敏感信息的识别方法有效
申请号: | 201911077763.5 | 申请日: | 2019-11-06 |
公开(公告)号: | CN110826316B | 公开(公告)日: | 2021-08-10 |
发明(设计)人: | 沈波;李天舟;张振江;符艳平;王立夫;刘宁;张宇 | 申请(专利权)人: | 北京交通大学 |
主分类号: | G06F40/279 | 分类号: | G06F40/279;G06F40/295;G06N3/04;G06N3/08 |
代理公司: | 北京市商泰律师事务所 11255 | 代理人: | 麻吉凤 |
地址: | 100044 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 应用于 裁判 文书 敏感 信息 识别 方法 | ||
本发明实施例提供了一种应用于裁判文书中敏感信息的识别方法,包括:步骤1:在中国裁判文书网上获取的裁判文书,对裁判文书进行分句和分词处理;步骤2:对处理后的裁判文书进行命名实体识别抽取实体以及属性值;步骤3:对处理后的裁判文书进行语义角色标注,构建关于事件发生情况的三元组;步骤4:对抽取实体和属性值利用关系抽取,构建关系三元组;步骤5:根据事件发生情况的三元组和关系三元组通过实体对齐构建结构数据网;步骤6:根据不宜公开的信息内容定义敏感信息,利用结构数据网标注裁判文书中所对应的敏感信息。本发明实施例提供了一种应用于裁判文书中敏感信息的识别方法,利用机器学习对法律概念、自然语言的语义理解,对裁判文书中的敏感信息进行识别,对司法公开,保障公众的知情权和监督权具有良好的现实意义。
技术领域
本发明涉及数据挖掘技术领域,尤其涉及一种应用于裁判文书中敏感信息的识别方法。
背景技术
人民法院为了落实审判公开的原则,保障公众的知情权和监督权,司法公开是法治社会发展的必经之路。司法公开要求将司法的过程和结果向当事人和社会公开,实现司法程序的公开透明。而对于一些社会上民众关注的敏感案件或者案件中的敏感文字,对于大众的社会情绪和行为有一定的影响,同时社会舆论也会对案件的审判产生影响。因此,敏感信息的过滤和审判文书发布的风险评估就成为智慧法院的关键研究方向。
目前在司法领域中对于信息的自动化分析无法满足实际的需求,其根本原因在于分析机制需要建立在机器学习对法律概念、自然语言的语义理解的基础之上,由于司法业务流程的繁杂以及相关数据不够完备,发展尚不完善的语义理解及NLP理论还无法取得在其他领域中的应用效果。
发明内容
本发明的实施例提供了一种应用于裁判文书中敏感信息的识别方法,以克服现有技术的缺陷。
为了实现上述目的,本发明采取了如下技术方案。
一种应用于裁判文书中敏感信息的识别方法,包括:
步骤1:在中国裁判文书网上获取的裁判文书,对所述裁判文书进行分句和分词处理;
步骤2:对处理后的裁判文书进行命名实体识别抽取实体以及属性值;
步骤3:对处理后的裁判文书进行语义角色标注,构建关于事件发生情况的三元组;
步骤4:对所述抽取实体和属性值利用关系抽取,构建关系三元组;
步骤5:根据所述事件发生情况的三元组和关系三元组通过实体对齐构建结构数据网;
步骤6:根据不宜公开的信息内容定义敏感信息,利用所述结构数据网标注裁判文书中所对应的敏感信息。
优选地,所述步骤2中命名实体和步骤3中语义角色标注识别均采用LSTM+CRF模型。
优选地,所述步骤4中关系抽取采用BERT预训练+全连接层模型。
优选地,所述步骤2中命名实体识别的内容包括:人名、组织机构、地名、日期、时间、货币、手机号码、座机号码、数字和百分比。
优选地,所述步骤3中语义角色标注的内容包括:动作的实施者、动作的影响、受益人、条件、方向、程度、频率、地点、方式、目的、原因、时间和主题。
优选地,所述步骤2中命名实体和步骤3中语义角色标注识别均采用LSTM+CRF模型,具体包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京交通大学,未经北京交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911077763.5/2.html,转载请声明来源钻瓜专利网。