[发明专利]一种应用于裁判文书中敏感信息的识别方法有效
申请号: | 201911077763.5 | 申请日: | 2019-11-06 |
公开(公告)号: | CN110826316B | 公开(公告)日: | 2021-08-10 |
发明(设计)人: | 沈波;李天舟;张振江;符艳平;王立夫;刘宁;张宇 | 申请(专利权)人: | 北京交通大学 |
主分类号: | G06F40/279 | 分类号: | G06F40/279;G06F40/295;G06N3/04;G06N3/08 |
代理公司: | 北京市商泰律师事务所 11255 | 代理人: | 麻吉凤 |
地址: | 100044 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 应用于 裁判 文书 敏感 信息 识别 方法 | ||
1.一种应用于裁判文书中敏感信息的识别方法,其特征在于,包括:
步骤1:在中国裁判文书网上获取的裁判文书,对所述裁判文书进行分句和分词处理;
步骤2:对处理后的裁判文书进行命名实体识别抽取实体以及属性值;
步骤3:对处理后的裁判文书进行语义角色标注,构建关于事件发生情况的三元组;
步骤4:对所述抽取实体和属性值利用关系抽取,构建关系三元组;
步骤5:根据所述事件发生情况的三元组和关系三元组通过实体对齐构建结构数据网;
步骤6:根据不宜公开的信息内容定义敏感信息,利用所述结构数据网标注裁判文书中所对应的敏感信息;
所述步骤2中命名实体和步骤3中语义角色标注识别均采用LSTM+CRF模型,具体包括:
对于给定的输入X=(x1,x2,...,xn),这里的输入为文档经过分词后,每一句话中的各个词语,X表示一个句子,x表示组成这句话的每一个词语,经过LSTM层得到输出P=(p1,p2,p3…pn)∈Rn×k,其中k为实体/语义角色标记的数目,P表示经过LSTM每个字在隐藏层的输出的连接,p1…pn表示每个字隐藏层输出,R表示字向量全集,Pi,j为第i个词被预测为实体/语义角色j的分数;
对于一条标记序列y=(y1,y2,...,yn),定义模型对于句子X的标签等于对标记序列y的分数:
其中,S表示模型对句子X的标签,A为转移矩阵,Ai,j为从标记i转移到标记j的分数,对分数s(X,y)取softmax做规范化,则得到标记序列y的预测概率为:
其中,分母表示对所有可能的标记序列的分数求和,e为自然常数,p表示输入一句话X序列,预测每一个词语xi的标签yi的概率;
所述关系抽取采用BERT预训练+全连接层模型包括:
对于句子中的实体e1经过BERT得到向量Hi到Hj,实体e2经过BERT得到向量Hk到Hm,经过全连接层输出得到:
其中,W1与W2,b1与b2共享参数,W,b表示全连接层的参数权重W和偏置b,H表示组成实体的每一个字通过BERT预训练得到的字向量,i,j表示组成实体e1的首尾字,k,m表示组成实体e2的首尾字;
句子的起始标志经过BERT得到向量H0经过全连接层:
H′0=W0(tanh(H0))+b0
最后将得到的三个向量拼接取softmax做规范化,则得到e1与e2关系r的预测概率为:
h″=W3[concat(H′0,H′1,H′2)]+b3
p(r|E=e1,e2)=softmax(h″)
其中,h″表示将之前的向量拼接经过全连接层输出后的向量。
2.根据权利要求1所述的识别方法,其特征在于,所述步骤2中命名实体识别的内容包括:人名、组织机构、地名、日期、时间、货币、手机号码、座机号码、数字和百分比。
3.根据权利要求1所述的识别方法,其特征在于,所述步骤3中语义角色标注的内容包括:动作的实施者、动作的影响、受益人、条件、方向、程度、频率、地点、方式、目的、原因、时间和主题。
4.根据权利要求1所述的识别方法,其特征在于,所述根据所述事件发生情况的三元组和关系三元组通过实体对齐构建结构数据网,包括:
将构建的事件发生情况三元组和关系三元组存储到图数据库中,在所述图数据库中先根据实体创建节点,再根据事件发生情况三元组和关系三元组之间的关系创建节点之间的关系,最后将节点连接成结构数据网。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京交通大学,未经北京交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911077763.5/1.html,转载请声明来源钻瓜专利网。