[发明专利]一种基于自然语言处理的裁判文书文本分类方法在审
申请号: | 202010118492.X | 申请日: | 2020-02-26 |
公开(公告)号: | CN111353041A | 公开(公告)日: | 2020-06-30 |
发明(设计)人: | 陈晨 | 申请(专利权)人: | 山东爱城市网信息技术有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06N3/04;G06N3/08;G06Q50/18 |
代理公司: | 济南信达专利事务所有限公司 37100 | 代理人: | 孙晶伟 |
地址: | 250100 山东省济南市高新*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 自然语言 处理 裁判 文书 文本 分类 方法 | ||
本发明公开一种基于自然语言处理的裁判文书文本分类方法,涉及文本管理技术领域;根据需求,利用大数据处理技术从裁判文书中筛选文书数据,对文书数据进行标签提取,采集相应标签内的文书数据作为数据集,建立自然语言处理中基于深度神经网络的文本分类模型,文本分类模型利用word2vec预先训练数据集,将数据集中文本转换为词向量集,作为卷积神经网络计算分析的参照,利用embedding词嵌入方式实时训练获取的实时数据集,将实时数据集中文本转换为实时词向量,将实时词向量输入卷积神经网络进行计算分析,获得文本数据的分类结果。
技术领域
本发明公开一种分类方法,涉及文本管理技术领域,具体地说是一种基于自然语言处理的裁判文书文本分类方法。
背景技术
自然语言处理是人工智能中的一个子领域,研究在人与人交互中以及在人与计算机交互中的语言问题的一门学科。为了建设和完善语言模型,自然语言处理建立计算框架,提出相应的方法来不断的完善设计各种实用系统,并探讨这些实用系统的评测方法。
判决文书主要由6个部分构成,分别是刑事案件(刑事文书)、民事案件(民事文书)、行政案件(行政文书)、赔偿案件(赔偿文书)、执行案件(执行文书)、其他案件(其他文书:管辖案件、区际司法协助(暂无数据)、国际司法协助(暂无数据)、非诉保全(暂无数据)、司法制裁、强制清算与破产、其他),其中大部分为文本信息。现实数据分析的模型中,大部分模型都是基于数值型的数据去做风险预测及评估工作,但面对文本类型的数据往往束手无策。
发明内容
本发明针对现有技术的问题,提供一种基于自然语言处理的裁判文书文本分类方法,构建NLP中文本分类的模型将上述判决文书文本进行对应标签分类对于分析企业画像数据,同时也可以帮助金融机构在对企业信贷过程中建立优质的风控体系。
本发明提出的具体方案是:
一种基于自然语言处理的裁判文书文本分类方法:根据需求,利用大数据处理技术从裁判文书中筛选文书数据,
对文书数据进行标签提取,采集相应标签内的文书数据作为数据集,
建立自然语言处理中基于深度神经网络的文本分类模型,文本分类模型利用word2vec预先训练数据集,将数据集中文本转换为词向量集,作为卷积神经网络计算分析的参照,利用embedding词嵌入方式实时训练获取的实时数据集,将实时数据集中文本转换为实时词向量,将实时词向量输入卷积神经网络进行计算分析,获得文本数据的分类结果。
所述的一种基于自然语言处理的裁判文书文本分类方法中对数据集在相应字段中的数据进行去重预处理,文本分类模型利用处理后的数据集进行训练。
所述的一种基于自然语言处理的裁判文书文本分类方法中文本分类模型中包括数据输入层、词向量层和卷积神经网络,其中词向量层使用word2vec预先训练数据集,将数据集中文本转换为词向量集,作为卷积神经网络计算分析的参照,使用embedding词嵌入方式实时训练获取的实时数据集,将实时数据集中文本转换为实时词向量。
所述的一种基于自然语言处理的裁判文书文本分类方法中卷积神经网络中依次为卷积层、激活层、池化层,池化层后连接全连接层。
一种基于自然语言处理的裁判文书文本分类系统,包括筛选模块、提取模块及分类模块,
筛选模块根据需求,利用大数据处理技术从裁判文书中筛选文书数据,
提取模块对文书数据进行标签提取,采集相应标签内的文书数据作为数据集,
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东爱城市网信息技术有限公司,未经山东爱城市网信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010118492.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:财政应用支撑平台系统
- 下一篇:一种微纳卫星电源供电控制方法