[发明专利]一种文本分类方法、装置、网络及存储介质在审
申请号: | 201911312726.8 | 申请日: | 2019-12-18 |
公开(公告)号: | CN111090748A | 公开(公告)日: | 2020-05-01 |
发明(设计)人: | 赵茜;周玥;胡浩;廖凤玲;谢晓婷;严彦昌;杨金辉;余梓玲 | 申请(专利权)人: | 广东博智林机器人有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/126;G06K9/62 |
代理公司: | 北京超凡宏宇专利代理事务所(特殊普通合伙) 11463 | 代理人: | 李飞 |
地址: | 528000 广东省佛山市顺德区北滘镇顺江*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 分类 方法 装置 网络 存储 介质 | ||
本申请涉及一种文本分类方法、装置、网络及存储介质,其中,一种文本分类方法包括步骤:获取待分类文本的中文字形信息,所述中文字形信息基于五笔输入法字根得到、将所述中文字形信息编码为独热编码、通过第一神经网络将所述独热编码转换为五笔字形编码、利用第二神经网络将所述五笔字形编码转换为注意力编码、根据所述注意力编码计算得到所述待分类文本的特征向量、通过第三神经网络对所述特征向量进行运算并根据运算结果确定所述待分类文本的标签类型。本申请能够对中文类型的待分类文本进行精确分类。
技术领域
本申请涉及自然语言处理技术领域,具体而言,涉及一种文本分类方法、装置、网络及存储介质。
背景技术
通常,在自然语言处理领域中,为了实现对文本精确分类,需要考虑到文本中的不同词组的语义对前后文本的影响。目前,现有技术中存在一种模型框架,该模型框架通过“多头自注意力机制”兼顾文本中不同词组对整个文本的影响,进而可实现对文本精确分类。但是,技术人员发现该模型框架难以从中文文本的字形层面对中文文本进行卷积,并获取相关的词向量信息,因此,该模型框架无法适用于对中文文本精确分类。
发明内容
本申请实施例的目的在于公开一种文本分类方法、装置、网络及存储介质,用于解决现有文本分类模型无法对中文类型的待分类文本进行分类这一技术问题,从而实现对中文类型的待分类文本进行精确分类。
本申请第一方面公开一种文本分类方法,该方法包括:
获取待分类文本的中文字形信息,中文字形信息基于五笔输入法字根得到;
将中文字形信息编码为独热编码;
通过第一神经网络将独热编码转换为五笔字形编码;
利用第二神经网络将五笔字形编码转换为注意力编码;
根据注意力编码计算得到待分类文本的特征向量;
通过第三神经网络对特征向量进行运算并根据运算结果确定待分类文本的标签类型。
本申请通过中文与五笔字根的对应关系,将待分类的中文文本转换为五笔字形编码,该五笔字形编码与英文文本相似,进而该五笔字形编码能够被第二神经网络处理生成待分类的中文文本对应的特征向量,最终,使得第三神经网络能够根据特征向量对待分类的中文文本进行分类,与现有技术相比,本申请能够实现精确分类待分类的中文文本。
在一些可选的实施方式中,根据注意力编码计算得到待分类文本的特征向量这一步骤,包括子步骤:
当注意力编码的数量大于等于两个时,拼接所有注意力编码并得到待分类文本的特征向量。
本可选实施方式能够将多个注意力编码拼接成一个注意力编码,这样一来,本申请就能够处理包含多个注意力编码的中文文本,因此,本可选实施方式进一步提高了本申请的文本分类方法的适用范围,与此同时,本可选实施方式可以使得多个第二神经网络同时进行将独热编码转换为注意力编码,其中,每个第二神经网络处理不同的独热编码片段,这样一来就能够提高独热编码转换效率,尤其是在需要对大量的待分析的中文文本进行文本分类这一场景中,本可选实施方式具有有更快的处理速度。
在一些可选的实施方式中,利用第二神经网络将五笔字形编码转换为注意力编码这一步骤,包括子步骤:
将五笔字形编码转换为向量元素;
创建向量元素的查询向量、关键向量、价值向量;
根据查询向量、关键向量计算向量元素的注意力得分;
根据价值向量和对注意力得分进行归一化后的得分,获得注意力编码。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东博智林机器人有限公司,未经广东博智林机器人有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911312726.8/2.html,转载请声明来源钻瓜专利网。