[发明专利]文本分类方法、装置、设备以及存储介质在审
申请号: | 202010608375.1 | 申请日: | 2020-06-30 |
公开(公告)号: | CN111767729A | 公开(公告)日: | 2020-10-13 |
发明(设计)人: | 王健飞;彭程;罗雪峰;王巍巍 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/30;G06N3/04;G06N3/08;G06K9/62 |
代理公司: | 北京英赛嘉华知识产权代理有限责任公司 11204 | 代理人: | 王达佐;马晓亚 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 分类 方法 装置 设备 以及 存储 介质 | ||
1.一种文本分类方法,包括:
获取目标文本;
确定所述目标文本的向量矩阵;
根据所述向量矩阵,确定胶囊向量矩阵,其中,所述胶囊向量矩阵中的每个胶囊向量包括至少两个值;
根据所述胶囊向量矩阵中的各胶囊向量,确定所述目标文本的句向量;
根据所述句向量以及预设的至少两个类别向量,确定所述目标文本的类别。
2.根据权利要求1所述的方法,其中,所述根据所述向量矩阵,确定胶囊向量矩阵,包括:
对所述向量矩阵进行至少一次降维,得到降维矩阵;
将所述降维矩阵中的各值划分为多个胶囊向量,得到所述胶囊向量矩阵。
3.根据权利要求1所述的方法,其中,所述根据所述胶囊向量矩阵中的各胶囊向量,确定所述目标文本的句向量,包括:
调整所述胶囊向量矩阵中各胶囊向量的位置;
根据位置调整后的各胶囊向量,确定所述句向量。
4.根据权利要求3所述的方法,其中,所述调整所述胶囊向量矩阵中各胶囊向量的位置,包括:
将所述胶囊向量矩阵中的各胶囊向量按照预设排列顺序进行排列;
根据预设的迁移矩阵对排列后的各胶囊向量进行位置迁移,以调整所述胶囊向量矩阵中各胶囊向量的位置。
5.根据权利要求4所述的方法,其中,在所述根据预设的迁移矩阵对排列后的各胶囊向量进行位置迁移,包括
根据具有预设窗口长度的窗口按照预设的步长对排列后的各胶囊向量进行平移截取,得到新的胶囊向量;
根据预设的迁移矩阵对新的胶囊向量进行位置迁移。
6.根据权利要求3所述的方法,其中,所述根据位置调整后的各胶囊向量,确定所述句向量,包括:
确定各胶囊向量对应的初始权重;
基于所述初始权重,多次执行以下权重更新步骤:将各胶囊向量按照对应的权重相加,得到和向量;确定所述和向量与各胶囊向量之间的距离;根据得到的各距离调整各胶囊向量的初始权重,得到更新权重;
根据各胶囊向量对应的更新权重,确定所述句向量。
7.根据权利要求1所述的方法,其中,所述根据所述句向量以及预设的至少两个类别向量,确定所述目标文本的类别,包括:
分别确定所述句向量与所述至少两个类别向量之间的距离;
将与所述句向量距离最近的类别向量指示的类别作为所述目标文本的类别。
8.一种文本分类装置,包括:
目标文本获取单元,被配置成获取目标文本;
第一矩阵确定单元,被配置成确定所述目标文本的向量矩阵;
第二矩阵确定单元,被配置成根据所述向量矩阵,确定胶囊向量矩阵,其中,所述胶囊向量矩阵中的每个胶囊向量包括至少两个值;
句向量确定单元,被配置成根据所述胶囊向量矩阵中的各胶囊向量,确定所述目标文本的句向量;
目标文本分类单元,被配置成根据所述句向量以及预设的至少两个类别向量,确定所述目标文本的类别。
9.根据权利要求8所述的装置,其中,所述第二矩阵确定单元进一步被配置成:
对所述向量矩阵进行至少一次降维,得到降维矩阵;
将所述降维矩阵中的各值划分为多个胶囊向量,得到所述胶囊向量矩阵。
10.根据权利要求8所述的装置,其中,所述句向量确定单元包括:
位置调整模块,被配置成调整所述胶囊向量矩阵中各胶囊向量的位置;
句向量确定模块,被配置成根据位置调整后的各胶囊向量,确定所述句向量。
11.根据权利要求10所述的装置,其中,所述位置调整模块进一步被配置成:
将所述胶囊向量矩阵中的各胶囊向量按照预设排列顺序进行排列;
根据预设的迁移矩阵对排列后的各胶囊向量进行位置迁移,以调整所述胶囊向量矩阵中各胶囊向量的位置。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010608375.1/1.html,转载请声明来源钻瓜专利网。