[发明专利]一种基于司法领域知识抽取的高效司法文档分类方法有效
申请号: | 201811223782.X | 申请日: | 2018-10-19 |
公开(公告)号: | CN109508372B | 公开(公告)日: | 2023-05-09 |
发明(设计)人: | 马应龙;张鹏;马建刚 | 申请(专利权)人: | 华北电力大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/36;G06F40/289;G06F40/30;G06Q50/18;G06F40/151;G06F18/22 |
代理公司: | 徐州拉沃智佳知识产权代理有限公司 32455 | 代理人: | 陈永宁 |
地址: | 102206 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供了一种基于司法领域知识抽取的高效司法文档分类方法,包括建立司法文书领域知识模型、自动化知识抽取和基于WMD的司法文档分类三个阶段;其中,自动化知识抽取包括:(a)关键词抽取;(b)关键词优先级;(c)提取出判决结果;(d)审判结果的标准化;(e)带标签的数据集;基于WMD的司法文档分类:(f)词向量表示,形成一个中文分词包;(g)词袋模型(nBOW)表示文档;(h)构建两个词之间的距离;(i)计算文档之间的距离,最后采用kNN算法进行司法文档分类。本发明的司法文档分类方法,分类准确、效率高,通过司法文书的相似性分析,实现类案推送,为司法人员提供智能辅助办案服务,可以显著提高办案的质量和效率。 | ||
搜索关键词: | 一种 基于 司法 领域 知识 抽取 高效 文档 分类 方法 | ||
【主权项】:
1.一种基于司法领域知识抽取的高效司法文档分类方法,其特征在于,包括建立司法文书领域知识模型、自动化知识抽取和基于WMD的司法文档分类三个阶段;所述司法文书领域知识模型,基于犯罪构成理论构建,模型包含犯罪构成的四要件,即:主体、客体、主观方面、客观方面;同时模型还包括文书基本信息和判决结果信息;所述客观方面又包括危害行为和危害结果;所述自动化知识抽取通过以下步骤实现:1)客观方面的抽取:基于客观方面部分总是位于一篇文档的中间部分,且总是自成一个段落,和在段落的开始部分会存在一些特定的关键词语的特性,构造了所需的规则库;(a)关键词抽取:基于上述规则库,抽取客观方面相关段落,用于提取案件的判决结果;客观方面所在的段落,其第一句话总是包含特定关键词;(b)关键词优先级:将步骤(a)获得的客观方面司法文件中,检察院指控的客观方面与法院经审理查明的客观方面区分开,并对关键词设置了不同的优先级,在司法文书中含有两份客观方面时,会优先抽取含有高优先级关键词的部分;2)审判结果的抽取及其标准化:(c)提取判决结果:基于审判结果具有固定的用语和结构的规则,即被告人+姓名+犯+罪名+判处+判决结果,从步骤1)获得的客观方面提取出判决结果;(d)审判结果的标准化:步骤(c)抽取的审判结果中,将主刑部分中的汉字数字转化为阿拉伯数字,且将非以年为单位的数值转化为以年为单位来表示;(e)将步骤(d)标准化的文件进行标签化,获得带标签的数据集;所述基于WMD的司法文档分类:3)WMD度量计算任意已抽取信息之间的文档距离:(f)词向量表示:将上述抽取的的司法文档与中文维基百科语料库组成一个语料库,并除去了上述文档中的停用词;再使用了jieba分词对中文司法文档进行分词:将一个汉字序列切分成一个单独的词,形成一个中文分词包;(g)WMD使用正则化的词袋模型(nBOW)表示文档,设d∈Rn表示一篇文档,其中n表示nBOW模型的长度,即数据集中不同词的数目(去除停用词),代表文档中第i个词的计算公式,得到两个文档的nbow向量:
其中ci是第i个词在该文档中出现的次数,分别用d和d′表示两篇不同的文档;(h)WMD使用词向量技术,这样两个词i和j之间的距离可以自然的用二者在词向量空间的欧氏距离表示:c(i,j)=||xi‑xj||2 (2)为了避免混淆词距离与文档距离,将c(i,j)称为词转移代价;(i)通过词转移代价计算出了文档之间的距离,具体做法是:令d中的每个词都可以部分或全部的转化为d′中的任何词,那么将d中的全部词转化为d′中的全部词所花费的最小代价即是两个文档之间的距离;用一个流量矩阵T∈Rn×n表示d中的词向d′中的词的转化情况,Tij表示d中第i个词向d′中第j个词的转化量,为了保证d完全的转化为了d′,需要满足∑jTij=di,即词i转化到d′中各词的量的总和等于dj,同样的,还需令∑jTij=dj′,这是为了满足d中各词转化到词j的量的总和等于dj′;在满足以上两个约束同时,文档之间的距离可表示为:
这样计算得到的两个文档之间的距离可以表示文档的相似度,此距离越小,文档之间越相似;4)kNN算法进行司法文档分类:通过WMD计算的文档距离,来找到待分类文档的k个最相邻的文档,从而实现文档分类,在分类中进一步优化kNN算法中的参数k,即一个样本在特征空间中的k个最相邻的样本中的大多数属于某一个类别,则该样本也属于这个类别,并具有这个类别上样本的特性。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华北电力大学,未经华北电力大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201811223782.X/,转载请声明来源钻瓜专利网。