[发明专利]一种文本分类方法、装置、网络及存储介质在审
申请号: | 201911312726.8 | 申请日: | 2019-12-18 |
公开(公告)号: | CN111090748A | 公开(公告)日: | 2020-05-01 |
发明(设计)人: | 赵茜;周玥;胡浩;廖凤玲;谢晓婷;严彦昌;杨金辉;余梓玲 | 申请(专利权)人: | 广东博智林机器人有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/126;G06K9/62 |
代理公司: | 北京超凡宏宇专利代理事务所(特殊普通合伙) 11463 | 代理人: | 李飞 |
地址: | 528000 广东省佛山市顺德区北滘镇顺江*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 分类 方法 装置 网络 存储 介质 | ||
1.一种文本分类方法,其特征在于,所述方法包括:
获取待分类文本的中文字形信息,所述中文字形信息基于五笔输入法字根得到;
将所述中文字形信息编码为独热编码;
通过第一神经网络将所述独热编码转换为五笔字形编码;
利用第二神经网络将所述五笔字形编码转换为注意力编码;
根据所述注意力编码计算得到所述待分类文本的特征向量;
通过第三神经网络对所述特征向量进行运算并根据运算结果确定所述待分类文本的标签类型。
2.如权利要求1所述的文本分类方法,其特征在于,根据所述注意力编码计算得到所述待分类文本的特征向量,包括:
当所述注意力编码的数量大于等于两个时,拼接所有所述注意力编码并得到所述待分类文本的特征向量。
3.如权利要求1所述的文本分类方法,其特征在于,利用第二神经网络将所述五笔字形编码转换为注意力编码,包括:
将所述五笔字形编码转换为向量元素;
创建所述向量元素的查询向量、关键向量、价值向量;
根据所述查询向量、关键向量计算所述向量元素的注意力得分;
根据所述价值向量和对所述注意力得分进行归一化后的得分,获得所述注意力编码。
4.如权利要求3所述的文本分类方法,其特征在于:创建所述向量元素的查询向量、关键向量、价值向量,包括:
将所述向量元素与预设第一权重相乘获得所述查询向量;
将所述向量元素与预设第二权重相乘获得所述关键向量;
将所述向量元素与预设第三权重相乘获得所述价值向量。
5.如权利要求1所述的文本分类方法,其特征在于,通过第三神经网络对所述特征向量进行运算并根据运算结果确定所述待分类文本的标签类型,包括:
根据所述特征向量、所述第三神经网络运算得到所述待分类文本对应的至少两个预选分类标签及每个所述预选分类标签对应的概率;
根据每个所述预选分类标签对应的概率确定所述待分类文本的标签类型。
6.一种文本分类网络,其特征在于,所述文本分类网络包括:
第一神经网络,用于将独热编码编码为五笔字形编码;
第二神经网络,用于将所述五笔字形编码编码为注意力编码;
第三神经网络,用于对所述特征向量进行运算并根据运算结果确定待分类文本的标签类型。
7.如权利要求6所述的文本分类网络,其特征在于,所述第一神经网络为循环神经网络,其中,所述循环神经网络包括若干个循环单元。
8.一种文本分类装置,其特征在于,所述装置包括:
获取模块,用于获取待分类文本中的中文字形信息,所述中文字形信息基于待分类文本中的五笔输入法字根得到;
第一编码模块,用于将所述中文字形信息编码为独热编码;
第二编码模块,用于通过第一神经网络将所述独热编码转换为五笔字形编码;
第三编码模块,用于利用第二神经网络将所述五笔字形编码转换为注意力编码;
计算模块,用于根据所述注意力编码计算得到所述待分类文本的特征向量;
运算模块,用于通过第三神经网络对所述特征向量进行运算并根据运算结果确定所述待分类文本的标签类型。
9.一种文本分类装置,所述装置包括:
处理器;以及
存储器,配置用于存储机器可读指令,所述指令在由所述处理器执行时,使得所述处理器执行如权利要求1-5任一项所述的文本分类方法。
10.一种存储介质,其特征在于,所述计算机存储介质存储有计算机程序,所述计算机程序被处理器执行如权利要求1-5任一项所述的文本分类方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东博智林机器人有限公司,未经广东博智林机器人有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911312726.8/1.html,转载请声明来源钻瓜专利网。