[发明专利]一种基于司法领域知识抽取的高效司法文档分类方法有效
申请号: | 201811223782.X | 申请日: | 2018-10-19 |
公开(公告)号: | CN109508372B | 公开(公告)日: | 2023-05-09 |
发明(设计)人: | 马应龙;张鹏;马建刚 | 申请(专利权)人: | 华北电力大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/36;G06F40/289;G06F40/30;G06Q50/18;G06F40/151;G06F18/22 |
代理公司: | 徐州拉沃智佳知识产权代理有限公司 32455 | 代理人: | 陈永宁 |
地址: | 102206 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 司法 领域 知识 抽取 高效 文档 分类 方法 | ||
本发明提供了一种基于司法领域知识抽取的高效司法文档分类方法,包括建立司法文书领域知识模型、自动化知识抽取和基于WMD的司法文档分类三个阶段;其中,自动化知识抽取包括:(a)关键词抽取;(b)关键词优先级;(c)提取出判决结果;(d)审判结果的标准化;(e)带标签的数据集;基于WMD的司法文档分类:(f)词向量表示,形成一个中文分词包;(g)词袋模型(nBOW)表示文档;(h)构建两个词之间的距离;(i)计算文档之间的距离,最后采用kNN算法进行司法文档分类。本发明的司法文档分类方法,分类准确、效率高,通过司法文书的相似性分析,实现类案推送,为司法人员提供智能辅助办案服务,可以显著提高办案的质量和效率。
技术领域
本发明涉及一种文档分类服务,具体涉及一种基于司法领域知识抽取的高效司法文档分类方法。
背景技术
海量的司法文书包含着丰富的有价值的信息,通过挖掘分析为检察官和法官提供智能辅助办案服务。对法院来说,可以为法官提供与当前案件相似的以往案件的判决文档,通过类案推送为当前案件的审判提供参考;对检察院而言,可以为公诉人对办理案件的量刑建议提供参考,有效防止同案不同诉。
基于文本相似度计算的海量司法文本自动化分类技术为辅助办案提供了必要的、高效的智能化手段,可以将相同判决结果的司法文档分成一类。当法官和检察官处理一个案件的司法文档时,可以将其自动分类的结果与他们给出的人工的判决结果进行比较,就能识别出“同案不同判”现象的发生,进而给法官裁判提供智能辅助,也为法院的院庭长履行监管职责,统一裁判尺度提供技术支撑。
文本自动分类在自然语言处理领域中是一个比较经典的问题。在传统文本分类方法中,文本分类问题通常采用特征工程和分类器等方法。特征工程分为文本预处理、特征提取、文本表示三个部分,最终目的是把文本转换成计算机可理解的格式,并封装足够用于分类的信息,即很强的特征表达能力。常用的方法有TF-IDF方法、词袋模型(BOW)、向量空间模型(VSM)、LDA主题模型等。然而这些方法往往由于其文本表示通常是高维度高稀疏而导致特征表达能力很弱,因此针对司法文本的分类结果并不理想。许多研究基于机器学习方法的分类器来分类司法文档,如KNN、SVM、最大熵、决策树等。
然而,现有司法文档自动化分类研究并没有深入探索司法文书处理的复杂问题。司法文书中涉及到各种各样的不同案件,不同的案件涉及到不同的犯罪情节和量刑判决。不同犯罪的司法文档在情节特征和法律文书书写规范上存在较大差异。另外,同样的犯罪情节的司法文档也可能因为法官对案件有不同的看法和法官自由裁量权而导致最终裁判文书在事实认定和量刑判决方面存在较大差异。因此,面向司法文档的自动化分类需要尽可能的充分抽取司法文档的真实语义信息以保证高质量的司法文档分类。虽然说Word2Vec分布表示模型可以通过神经网络模型训练和重构词的语义环境,能以向量形式表示词且可以表达词之间相似度的差异,但是它无法清晰表达文档级别的语义。
发明内容
针对现有技术中的不足之处,本发明提供一种基于司法领域知识抽取的高效司法文档分类方法。首先提出并构建了面向司法领域的领域知识本体以清晰表达文档级语义,然后在领域本体基础之上对司法文档进行相应的领域知识抽取,进而在已抽取的司法文档知识基础上采用WMD(Word Mover’s Distance)方法进行相应的文档相似度计算,最后基于K最近邻算法(KNN)进行文档的分类。
为了上述目的,本发明技术方案如下:
一种基于司法领域知识抽取的高效司法文档分类方法,包括建立司法文书领域知识模型、自动化知识抽取和基于WMD的司法文档分类三个阶段;
所述司法文书领域知识模型,基于犯罪构成理论构建,模型包含犯罪构成的四要件,即:主体、客体、主观方面、客观方面;同时模型还包括文书基本信息(如文号)和判决结果信息;所述客观方面又包括危害行为和危害结果;
所述自动化知识抽取通过以下步骤实现:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华北电力大学,未经华北电力大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811223782.X/2.html,转载请声明来源钻瓜专利网。