[发明专利]一种基于二分类器的用于法律文本分类的特征工程方法在审

专利信息
申请号: 201910401645.9 申请日: 2019-05-15
公开(公告)号: CN110110087A 公开(公告)日: 2019-08-09
发明(设计)人: 段强;李锐;尹青山 申请(专利权)人: 济南浪潮高新科技投资发展有限公司
主分类号: G06F16/35 分类号: G06F16/35;G06F16/33;G06F17/27;G06N20/00;G06Q50/18
代理公司: 济南信达专利事务所有限公司 37100 代理人: 阚恭勇
地址: 250100 山东省济南市*** 国省代码: 山东;37
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 二分类 法律文本 关键信息 构建 分类 文本 自然语言处理技术 多分类器 法学研究 机器学习 向量描述 判决 特征化 向量化 向量 清晰 法律
【说明书】:

发明提供一种基于二分类器的用于法律文本分类的特征工程方法,属于自然语言处理技术领域,本发明将以往的文本向量化的方法用于构建提取关键信息的二分类器,借由一系列的二分类器提取到的结果进一步构建机器学习所需的特征工程。这样做可以使文本中影响判决的关键信息特征化。而对于关键信息的判断,使用准确性较好的二分类器。然后通过不同特征的结合构建特征工程向量,可以得到一个对法律文本准确清晰的向量描述。最后可以使用已有的多分类器进行分类,得到的结果可以用来辅助法律判决、辅助法学研究等。

技术领域

本发明涉及自然语言处理技术,尤其涉及一种基于二分类器的用于法律文本分类的特征工程方法。

背景技术

目前在自然语言处理领域常用的文本向量化方法有One-Hot,TFIDF,Word2Vec等。将文本转换成向量表示有助于计算机算法理解和学习文本特征,从而完成文本分类。通常上,向量表示的含义越明确,分类效果越好。One-Hot和TFIDF模型都是基于词袋模型(BOW)和其衍生模型,主要关注词的存在与否和出现的频率,而淡化文本上下文之间的联系,因此更适合于检索而不是自然语言的理解和分类。word2vec是通过神经网络将每个单词转化成向量形式的算法。相较传统的词向量方法,Word2vec首先没使用稀疏矩阵表示向量,因此不会在大范围的文本上产生维数灾难;同时,它使用CBOW(连续词袋模型) 和Skip-gram模型,会考虑单词附近的上下文联系。但是在法律文本分类中,受限于中文分词的瓶颈和法律文书上下文之间强逻辑关系,只使用Word2vec进行向量化不能很好的提取文本信息,尤其是在多分类的任务的实践中,有效信息提取不全面会导致分类准确率显著下降。

大数据应用的兴起给各行各业都开拓了新思路、提供了新方法。在法学研究和法律应用中,数据的积累呈现出数量大、更新快、样本不均衡的情况。如何使用人工智能和机器学习来处理大量的法律文本以此辅助判决、提高法律决策的效率变得越来越有价值。

使用传统的自然语言处理方法仅是将文本进行分词然后使用one-hot、TFIDF等方法进行编码,其本质是基于词袋模型,对单词的出现次数和频率进行统计总结,无法直接的赋予机器学习理解法律文本和提取关键信息从而辅助判决的能力。Word2vec算法通过神经网络将一个单词转化成定长的向量形式,每个向量可以视为高维空间中的一个点,因此该方法可以体现词语之间的关联性,是当前性能较好的文本向量化算法。但在法律文书分类的实际运用中,由于文书格式较为规范,相似性较高,且为多分类任务,样本分布相当不均衡,导致word2vec并不能很好地将有助于判决的关键信息体现出来。

特征工程是指用一系列工程化的方式从原始数据中筛选出更好的数据特征以提升模型的训练效果,通常包括特征构造和选择。在自然语言处理中,特征工程还包括文本分词、去除停用词和向量化。常用的文本的向量化方法有基于词袋的One-Hot和TFIDF 方法,和分布式表示的word2vec方法。由于中文分词会引入误差,且法律文本存在大量对案情经过的口语化描述,导致机器学习最终的文本分析效果受到影响。一些过于细节的信息很难被显著的提取出来,而案件的划分和定性往往依赖于这些关键的细节。因此,在法律文本的多分类任务中,准确率会受到显著的影响。

现有的技术存在如下劣势:

1、法律文书往往对案情的细节使用口语化的描述,关键信息隐藏较深。因此中文分词的歧义性会影响到文本分类的机器学习效果。

2、法律文书往往描述模式较为固定,用词单一,因此常用的算法对文本的向量化结果较为相似,不利于机器学习辨别其类别。

发明内容

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于济南浪潮高新科技投资发展有限公司,未经济南浪潮高新科技投资发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910401645.9/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top