[发明专利]文本分类的方法和装置有效

申请号：	202110247013.9	申请日：	2021-03-05
公开（公告）号：	CN112612898B	公开（公告）日：	2021-05-18
发明（设计）人：	李显明	申请（专利权）人：	蚂蚁智信（杭州）信息技术有限公司
主分类号：	G06F16/35	分类号：	G06F16/35;G06F40/216;G06F40/284;G06F40/30;G06N3/04;G06N3/08
代理公司：	北京博思佳知识产权代理有限公司 11415	代理人：	周嗣勇
地址：	310013 浙江省杭州市***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	文本分类方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本说明书提供一种文本分类的方法，包括：由语义编码模型得到待分类文本的语义特征向量；对待分类文本中词的统计信息进行编码，得到待分类文本的统计特征向量；将所述语义特征向量和统计特征向量输入门控网络模型，在门控网络模型中先对所述语义特征向量中满足预定增强条件的元素采用所述统计特征向量进行增强，得到待分类文本的增强特征向量，再基于增强特征向量对所述待分类文本进行分类；所述语义编码模型和门控网络模型采用有标签的训练样本进行联合训练。

技术领域

本说明书涉及数据处理技术领域，尤其涉及一种文本分类的方法和装置。

背景技术

文本分类是自然语言处理（NLP，Natural Language Processing）应用领域中最常见也最重要的任务类型。对于预先定义的两个到多个类别，由计算机自动将一段文本归属于其中的一个类别。用来分类的一段文本可以是短语、句子、段落、直至整篇文档。

文本分类在知识管理、社交媒体数据分析、客户服务、垃圾邮件过滤、预防网络犯罪等领域得到了广泛的应用。随着各种应用的类别精细程度逐步增加，提高文本分类的准确度已经成为亟待解决的问题。

发明内容

有鉴于此，本说明书提供一种文本分类的方法，包括：

由语义编码模型得到待分类文本的语义特征向量；

对待分类文本中词的统计信息进行编码，得到待分类文本的统计特征向量；

将所述语义特征向量和统计特征向量输入门控网络模型，在门控网络模型中先对所述语义特征向量中满足预定增强条件的元素采用所述统计特征向量进行增强，得到待分类文本的增强特征向量，再基于增强特征向量对所述待分类文本进行分类；所述语义编码模型和门控网络模型采用有标签的训练样本进行联合训练。

本说明书还提供了一种文本分类的装置，包括：

语义特征向量单元，用于由语义编码模型得到待分类文本的语义特征向量；

统计特征向量单元，用于对待分类文本中词的统计信息进行编码，得到待分类文本的统计特征向量；

增强特征向量单元，用于将所述语义特征向量和统计特征向量输入门控网络模型，在门控网络模型中先对所述语义特征向量中满足预定增强条件的元素采用所述统计特征向量进行增强，得到待分类文本的增强特征向量，再基于增强特征向量对所述待分类文本进行分类；所述语义编码模型和门控网络模型采用有标签的训练样本进行联合训练。

本说明书提供的一种计算机设备，包括：存储器和处理器；所述存储器上存储有可由处理器运行的计算机程序；所述处理器运行所述计算机程序时，执行上述文本分类的方法所述的步骤。

本说明书还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器运行时，执行上述文本分类的方法所述的步骤。

由以上技术方案可见，本说明书的实施例中，生成待分类文本的语义特征向量和统计特征向量，采用统计特征向量对语义特征向量进行增强，并基于增强后得到的增强特征向量对待分类文本进行分类，从而能够基于融合了待分类文本的统计信息和语义信息的特征进行分类，极大的提高了分类的准确性。

附图说明

图1是本说明书实施例中分类模型的一种逻辑结构示意图；

图2是本说明书实施例中一种文本分类的方法的流程图；

图3是本说明书应用示例中文本分类的流程示意图；

图4是运行本说明书实施例的设备的一种硬件结构图；

图5是本说明书实施例中一种文本分类的装置的逻辑结构图。

具体实施方式

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载