[发明专利]公检法领域结构化文书的信息提取方法、装置及存储介质有效
申请号: | 201810732199.5 | 申请日: | 2018-07-05 |
公开(公告)号: | CN109033249B | 公开(公告)日: | 2021-06-18 |
发明(设计)人: | 张冬梅;范鑫;晋耀红 | 申请(专利权)人: | 鼎富智能科技有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/903;G06Q50/18 |
代理公司: | 北京弘权知识产权代理有限公司 11363 | 代理人: | 逯长明;许伟群 |
地址: | 230000 安徽省合肥市*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 公检法 领域 结构 文书 信息 提取 方法 装置 存储 介质 | ||
1.一种公检法领域结构化文书的信息提取方法,其特征在于,包括:
利用第一规则从待处理的公检法领域结构化文书中切分出至少两个信息区块,所述第一规则为用于确定信息区块的起止位置的规则,切分出的每个所述信息区块包含一个法律主体的属性信息;
利用第二规则分别从每个信息区块中提取出与所述信息区块对应的信息集合,所述第二规则为用于识别法律主体的属性信息的规则,所述信息集合包括至少一条属性信息;
按照信息区块中的法律主体,对应存储从所述信息区块中提取出的信息集合;
利用第三规则从所述待处理的公检法领域结构化文书中切分出至少一个说明区块,所述第三规则为用于确定说明区块的起止位置的规则,切分出的每个说明区块包含至少一个案件要素;
从每个说明区块中分别提取出与说明区块对应的至少一个案件要素;
如果一个说明区块包含信息区块中的至少一个法律主体,则将案件集合分别与所述至少一个法律主体关联存储;其中,所述案件集合包括从所述说明区块中提取出的至少一个案件要素;
其中,若所述说明区块包含一个法律主体,则将案件集合与所述一个法律主体关联存储;若所述说明区块包含多个法律主体,则将案件集合分别与所述多个法律主体关联存储。
2.根据权利要求1所述的方法,其特征在于,所述第一规则包括第一类定位表达式和第二类定位表达式,所述第一类定位表达式用于确定信息区块的开始位置,所述第二类定位表达式用于确定信息区块的结束位置;
所述利用第一规则从待处理的公检法领域结构化文书中切分出至少两个信息区块的步骤,包括:
将第一类定位表达式与待处理的公检法领域结构化文书匹配,识别出至少两个开始位置;
将第二类定位表达式与待处理的公检法领域结构化文书匹配,识别出至少两个结束位置;
将位于一个开始位置之后并且与之距离最近的结束位置,与所述开始位置配对;
切分出信息区块,所述信息区块为配对的开始位置和结束位置之间的文本。
3.根据权利要求1所述的方法,其特征在于,所述第二规则包括与法律主体的属性对应的要素表达式;
利用第二规则分别从每个信息区块中提取出与所述信息区块对应的信息集合的步骤,包括:
将第i个属性对应的要素表达式与第k个信息区块匹配,抽取出与要素表达式匹配的第一字符串;其中,i=1,2,……N-1,N,k=1,2,……M-1,M;N表示法律主体的属性的总数量;M表示切分出的信息区块的总数量;
将抽取出的第一字符串确定为第k个信息区块中的法律主体的第i个属性的属性信息。
4.根据权利要求3所述的方法,其特征在于,将第i个属性对应的要素表达式与第k个信息区块匹配,抽取出与要素表达式匹配的第一字符串的步骤,包括:
利用第i个属性对应的要素表达式中的前缀规则和后缀规则,从第k个信息区块中确定抽取区域;
从抽取区域中抽取出第一字符串,所述第一字符串为与第i个属性对应的要素表达式中的抽取规则匹配的字符串。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于鼎富智能科技有限公司,未经鼎富智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810732199.5/1.html,转载请声明来源钻瓜专利网。