[发明专利]文本分类方法、装置、计算机设备及存储介质在审

申请号：	202010111072.9	申请日：	2020-02-24
公开（公告）号：	CN111309912A	公开（公告）日：	2020-06-19
发明（设计）人：	莫宇;温凯雯;吕仲琪;顾正	申请（专利权）人：	深圳市华云中盛科技股份有限公司
主分类号：	G06F16/35	分类号：	G06F16/35;G06F40/289;G06Q50/18
代理公司：	深圳市精英专利事务所 44242	代理人：	刘萍
地址：	518000 广东省深圳市南山区粤海街道麻岭***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	文本分类方法装置计算机设备存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明涉及文本分类方法、装置、计算机设备及存储介质，该方法包括获取需分类的文本数据，以得到待分类数据；将待分类数据输入目标文本分类模型进行分类，以得到分类结果；输出所述分类结果至终端，以在终端显示所述分类结果；其中，目标文本分类模型是通过对输入的文本数据进行提取向量集并生成标签后结合形成训练数据集进行训练所得的。本发明通过对输入的文本数据采用自动生成标签的方式生成标签，将生成的标签与初始向量集组合，并通过迭代的方式修正文本数据标签，再次训练初始文本分类模型，提高训练数据质量，降低前期的人工标注标签成本，快速响应文本分类任务中大量标注数据的需求，以达到快速建立文本分类模型，提升文本分类效率。

技术领域

本发明涉及计算机，更具体地说是指文本分类方法、装置、计算机设备及存储介质。

背景技术

随着法律文书的不断公开以及近几年自然语言处理技术的发展，越来越多的深度学习技术被用于司法领域，通过挖掘法律文本的内部知识，为司法人员在案件处理环节提供便利。

在司法领域的法律文本分类场景中，如判断被告人是否犯有某种罪名，是否有立功情节等，目前常用的分类手段主要基于强监督的方式来实现，需要采集庞大的法律文书数据集，通过人工标注的手段为数据打上标签，经过分词、Embedding等预处理后进入分类模型训练，常用的分类模型主要有LR(逻辑回归，Logistic Regression)、SVM(支持向量机，Support Vector Machine)以及基于CNN(卷积神经网络，Convolutional NeuralNetworks)或RNN(循环神经网络，Recurrent Neural Network)模式的深度神经网络等。但由于案由众多，导致分类需求庞大，分类需求经常随着时间的推移而新增或修改，因此传统的通过大量标注数据再进行训练的方法，无法满足快速响应文本分类建模的需求。

有必要一种新的方法，实现降低了前期的人工标注成本，快速响应文本分类任务中大量标注数据的需求，以达到快速建立文本分类模型，提升文本分类效率。

发明内容

本发明的目的在于克服现有技术的缺陷，提供文本分类方法、装置、计算机设备及存储介质。

为实现上述目的，本发明采用以下技术方案：文本分类方法，包括：

获取需分类的文本数据，以得到待分类数据；

将待分类数据输入目标文本分类模型进行分类，以得到分类结果；

输出所述分类结果至终端，以在终端显示所述分类结果；

其中，所述目标文本分类模型是通过对输入的文本数据进行提取向量集并生成标签后结合形成训练数据集进行训练所得的。

其进一步技术方案为：所述目标文本分类模型是通过对输入的文本数据进行提取向量集并生成标签后结合形成训练数据集进行训练所得的，包括：

获取输入的文本数据，以得到初始数据；

对初始数据进行提取向量集，以得到初始向量集；

对初始数据生成标签，以得到初始标签；