[发明专利]一种文本分类系统及其训练方法有效

申请号：	201911170926.4	申请日：	2019-11-26
公开（公告）号：	CN111061872B	公开（公告）日：	2023-08-04
发明（设计）人：	王丙栋;游世学	申请（专利权）人：	北京中科汇联科技股份有限公司
主分类号：	G06F16/35	分类号：	G06F16/35;G06F40/284;G06N3/048
代理公司：	北京庆峰财智知识产权代理事务所(普通合伙) 11417	代理人：	周小平
地址：	100094 北京市海***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种文本分类系统及其训练方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公布了一种文本分类系统及其训练方法，所述系统包含以下模块：文本切分模块、文本编码器、文本标签注意力分类器。本发明的文本分类神经网络，使用相同的编码器对文本和标签编码，再使用注意力机制得到文本对每个标签的注意力，归一化注意力得到文本属于标签的概率。本发明的神经网络支持对可变数量标签的分类，具有标签可扩展、模型易迁移的特点。

技术领域

本发明涉及文本挖掘和深度学习技术领域，尤其涉及一种文本分类系统及其训练方法。

背景技术

随着互联网技术的广泛应用，各种文本数据被大量积累，而且，新的文本数据每天都在不断的产生。对这些文本数据，有的需要归类整理，有的需要流转分发，有的需要即时语义理解与自动答复，这些需求都涉及到对文本的自动分类。传统的分类神经网络忽视了类别标签本身的语义，也忽视了文本与类别标签在语义上的联系，只能将文本分类到既定的几个离散类别，当类别的个数有变化时，需要调整神经网络分类输出层神经元的个数并重新训练模型，导致迁移的成本较大。

发明内容

本发明的目的是通过以下技术方案实现的。

鉴于传统分类神经网络的不足，本发明的目的是提供一种文本分类神经网络，使用注意力机制对文本和类别标签在语义上的联系进行建模，在保持模型结构不变的前提下，支持对动态数量类别的分类处理。

为实现上述目的，本发明采取以下技术方案：

文本切分模块；

文本编码器；

文本标签注意力分类器。

以上模块的详细描述如下：

文本切分模块：将文本切分为token的序列，token既可以是字也可以是词，本发明中的token是字；如果序列的长度大于神经网络输入序列的最大长度MAX_LEN, 则将序列以句子为最小单元切分为若干片段，每个片段的长度都不大于MAX_LEN；对于相邻的两个片段，上一个片段的结束句与下一片段的开头句重叠；每个片段的开头处拼接上[BOS]标记、结尾处拼接上[EOS]标记，其中[BOS]表示片段开头，[EOS]表示片段结尾；拼接[BOS]和[EOS]后的片段长度不大于MAX_LEN。

文本编码器：用于将待分类的源文本编码为token序列的向量表示，也用于将目标类别标签名编码为标签的向量表示。目前流行的文本编码器有BERT、ELMo、LSTM等，本发明使用BERT，也支持其他能对字词序列编码的序列模型。对于得到的标签名序列的编码，取[BOS]对应的向量为标签的向量。

文本标签注意力分类器：对于给定的一篇文本和一组类别标签，将文本属于每个标签的概率表示为P(labels | text), 将文本对每个标签的注意力表示为attention(text, labels), 其中labels表示标签集合，text表示文本。分类概率计算方法如下:

P(labels | text) = attention(text, labels)

文本对标签的注意力为文本中所有token对标签的注意力的平均。计算方法如下：

attention(text,labels)=sum(softmax(attention(token,labels)))/length(text)

其中attention(token, labels)为经编码得到与上下文语境相关的token向量对labels中每个标签向量的注意力，length(text)为文本中token的个数。

本发明由于采取以上技术方案，其具有以下优点：

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京中科汇联科技股份有限公司，未经北京中科汇联科技股份有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201911170926.4/2.html，转载请声明来源钻瓜专利网。

上一篇：一种起重机的超起卷扬的控制方法、控制系统及控制器
下一篇：基于虚拟现实的疏散环境中热源交互方法和装置

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种文本分类系统及其训练方法有效

专利文献下载