[发明专利]一种文本分类的方法、系统、设备及计算机可读存储介质在审

申请号：	201910412742.8	申请日：	2019-05-17
公开（公告）号：	CN110110088A	公开（公告）日：	2019-08-09
发明（设计）人：	朱芬红;洪宇;朱巧明	申请（专利权）人：	苏州大学
主分类号：	G06F16/35	分类号：	G06F16/35
代理公司：	北京集佳知识产权代理有限公司 11227	代理人：	罗满
地址：	215104 ***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	文本分类模型文本分类语料二分类特征抽取计算机可读存储介质分类神经网络申请优化分类文本接收输入模型训练网络构建语义特征构建预设抽取网络文本
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请公开了一种文本分类的方法，包括：接收输入的分类语料；利用分类语料构建多组句对语料；利用分类语料训练预设神经网络，得到文本分类模型；基于文本分类模型的特征抽取网络构建双输入二分类模型，并利用句对语料对双输入二分类模型进行训练；当双输入二分类模型训练完成后，利用双输入二分类模型对文本分类模型的特征抽取网络进行优化，并利用优化后的文本分类模型对待分类文本进行文本分类。本申请令文本分类模型能更可靠地抽取文本的深层语义特征，进一步提升了文本分类性能，解决了现有技术中基于神经网络的分类难以进一步优化特征抽取网络的问题。本申请同时还提供了一种文本分类的系统、设备及计算机可读存储介质，具有上述有益效果。

技术领域

本申请涉及文本分类领域，特别涉及一种文本分类的方法、系统、设备及计算机可读存储介质。

背景技术

文本分类旨在从预定义的类别标签中自动地为给定的文本指派目标标签，是自然语言处理领域中的一项基础任务。文本分类广泛应用于情感分析、问答以及自然语言理解等领域，因此，如何有效提升文本分类性能具有重要的研究价值和意义。

目前，文本分类的研究方法主要集中于基于规则、基于统计学习方法以及基于神经网络三个方面。基于规则的分类方法源于对专家知识的应用，也就是专家对特定语料进行观测并制定刚性规则，从而界定文本的类别。基于规则的方法往往处理速度快、精确度高，但受限于观测样本数据的“小样本”现象，因此在大批量数据上的分类性能较低。基于统计学习方法的分类很大程度上依赖于特征工程，如抽取文本的词性、句法依存以及实体信息等特征，并采用向量空间模型表示这些特征，从而训练支持向量机、最大熵等的分类模型，存在一定的局限性。基于神经网络的分类通常采用低维分布式的词向量表示文本，在通过卷积神经网络或循环神经网络提取文本表示的深层语义时仅从文本自身特征出发，难以进一步优化特征抽取网络。

因此，如何进一步提升文本分类性能是本领域技术人员目前需要解决的技术问题。

发明内容

本申请的目的是提供一种文本分类的方法、系统、设备及计算机可读存储介质，用于进一步提升文本分类性能。

为解决上述技术问题，本申请提供一种文本分类的方法，该方法包括：

接收输入的分类语料；

利用所述分类语料构建多组句对语料；其中，所述句对语料为一对属于同一主题或不同主题的语料；

利用所述分类语料训练预设神经网络，得到文本分类模型；

基于所述文本分类模型的特征抽取网络构建双输入二分类模型，并利用所述句对语料对所述双输入二分类模型进行训练；其中，所述双输入二分类模型用于判断所述句对语料是否属于同一主题；

当所述双输入二分类模型训练完成后，利用所述双输入二分类模型对所述文本分类模型的特征抽取网络进行优化，并利用所述优化后的文本分类模型对待分类文本进行文本分类。

可选的，利用所述分类语料构建句对语料，包括：

在所述分类语料的各主题下均随机选取源语句；

在所述源语句所属的主题下选择一个句子与所述源语句组成正例句对语料，在所述分类语料的其他主题下随机选择一个句子与所述源语句组成负例句对语料；