[发明专利]类别分析方法、装置、设备及存储介质在审
申请号: | 202010757954.2 | 申请日: | 2020-07-31 |
公开(公告)号: | CN113762998A | 公开(公告)日: | 2021-12-07 |
发明(设计)人: | 李银锋;黄明星;周彬;李晓敏;赖晨东 | 申请(专利权)人: | 北京沃东天骏信息技术有限公司;北京京东世纪贸易有限公司 |
主分类号: | G06Q30/02 | 分类号: | G06Q30/02;G06F16/35;G06K9/62;G06F40/289 |
代理公司: | 北京同立钧成知识产权代理有限公司 11205 | 代理人: | 张娜;臧建明 |
地址: | 100076 北京市经济技术开*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 类别 分析 方法 装置 设备 存储 介质 | ||
1.一种类别分析方法,其特征在于,包括:
获取待识别对象的文本数据;
基于预设的词向量表,确定所述文本数据对应的词序列向量;
将所述词序列向量输入到预先训练的机器分类模型中进行处理,得到所述待识别对象对应的类别概率分布;
根据所述类别概率分布,确定所述待识别对象所属的类别。
2.根据权利要求1所述的方法,其特征在于,所述基于预设的词向量表,确定所述文本数据对应的词序列向量,包括:
对所述文本数据进行分词处理,得到所述文本数据对应的至少一个词语;
根据所述至少一个词语,查询预设的词向量表,确定每个词语在所述词向量表中的编码信息;
根据所述至少一个词语在所述词向量表中的编码信息,得到所述文本数据对应的词序列向量。
3.根据权利要求1所述的方法,其特征在于,所述机器分类模型包括:相互连接的自注意处理层和神经网络层;
所述将所述词序列向量输入到预先训练的机器分类模型中进行处理,得到所述待识别对象对应的类别概率分布,包括:
利用所述自注意处理层对所述词序列向量包括的词向量进行信息融合,得到所述词序列向量的自注意结果;
利用所述神经网络层对所述自注意结果进行信息提取和信息处理,得到所述待识别对象对应的类别概率分布。
4.根据权利要求3所述的方法,其特征在于,所述利用所述自注意处理层对所述词序列向量包括的词向量进行信息融合,得到所述词序列向量的自注意结果,包括:
利用所述预设自注意处理层中的至少三个网络模型分别对所述词序列向量进行处理,得到至少三个词序列矩阵,所述至少三个网络模型的类型均相同但参数均不同;
根据所述至少三个词序列矩阵中的至少两个词序列矩阵,计算各序列矩阵中词向量的相关性,得到词相关性矩阵;
根据所述词相关性矩阵和所述至少三个词序列矩阵中的目标词序列矩阵,计算所述词序列向量的自注意结果,所述目标词序列矩阵与所述至少两个词序列矩阵均不同。
5.根据权利要求3所述的方法,其特征在于,所述神经网络层包括:前馈网络层、池化层和全连接层;
所述利用所述神经网络层对所述自注意结果进行信息提取和信息处理,得到所述待识别对象对应的类别概率分布,包括:
利用所述前馈网络层对所述自注意结果进行处理,得到所述词序列向量对应的更新词序列向量;
利用所述池化层对所述更新词序列向量进行特征提取,得到所述文本数据对应的表征词序列向量;
利用所述全连接层对所述表征词序列向量进行维度加权求和以及归一化处理,得到所述待识别对象对应的类别概率分布。
6.根据权利要求1-5任一项所述的方法,其特征在于,所述方法还包括:
获取已标注对象类别的文本数据集,所述文本数据集包括预设对象类别分别对应的多条文本数据;
基于预设的分词规则,对所述文本数据集中的每条文本数据进行分词处理,得到所述文本数据集对应的词语集合;
根据所述文本数据集对应的词语集合和外界输入的术语,生成所述词向量表,所述词向量表中的每个词语具有唯一的编码。
7.根据权利要求6所述的方法,其特征在于,所述方法还包括:
根据所述词向量表,确定所述文本数据集中每条文本标注数据对应的词序列标注向量;
将每条文本标注数据对应的词序列标注向量作为预设网络的输入、所述文本标注数据对应的已标注对象类别作为输出,对所述预设网络进行训练,得到所述机器分类模型。
8.一种类别分析装置,其特征在于,包括:获取模块、第一处理模块、第二处理模块和确定模块;
所述获取模块,用于获取待识别对象的文本数据;
所述第一处理模块,用于基于预设的词向量表,确定所述文本数据对应的词序列向量;
所述第二处理模块,用于将所述词序列向量输入到预先训练的机器分类模型中进行处理,得到所述待识别对象对应的类别概率分布;
所述确定模块,用于根据所述类别概率分布,确定所述待识别对象所属的类别。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京沃东天骏信息技术有限公司;北京京东世纪贸易有限公司,未经北京沃东天骏信息技术有限公司;北京京东世纪贸易有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010757954.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种库存差异对冲处理方法和装置
- 下一篇:一种登录远程主机的方法和装置