[发明专利]一种基于Doc2Vec和卷积神经网络的多源异构商品信息分类方法在审
申请号: | 202010463517.X | 申请日: | 2020-05-27 |
公开(公告)号: | CN111651597A | 公开(公告)日: | 2020-09-11 |
发明(设计)人: | 黄茉;黄新恩;翁增仁;胡锦锋 | 申请(专利权)人: | 福建博思软件股份有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06N3/04;G06K9/62 |
代理公司: | 福州科扬专利事务所 35001 | 代理人: | 郭梦羽 |
地址: | 350100 福建*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 doc2vec 卷积 神经网络 多源异构 商品信息 分类 方法 | ||
1.一种基于Doc2Vec和卷积神经网络的多源异构商品信息分类方法,其特征在于,包括如下步骤:
接入训练数据,所述训练数据为已有分类信息的多源异构商品信息;
对所述训练数据进行清洗,针对每个商品生成一份文本数据,所述文本数据包含多个特征字段;
对所述文本数据进行预处理,将所述特征字段划分为多个独立的词并去除停用词;
分别构建Doc2Vec中基于Hierarchical Softmax的PV-DBOW模型和Doc2Vec中基于负采样算法的PV-DM模型;分别输入预处理后的文本数据至所述的两个模型,各自训练得到文本特征矩阵;
融合上述训练所得的两个文本特征矩阵,得到融合文本特征矩阵;
构建并训练卷积神经网络,所述卷积神经网络用于商品信息分类;
上传待分类的商品数据,进行所述预处理,并根据所述文本特征矩阵抽取出其对应的词向量,输入至已训练的卷积神经网络,得到预测的商品分类,并根据所述商品预测分类对商品进行分类。
2.根据权利要求1所述的一种基于Doc2Vec和卷积神经网络的多源异构商品信息分类方法,其特征在于,所述清洗步骤如下:
遍历训练数据中的数据项,若数据项包含层级嵌套结构,则将数据项展平,使数据结构深度为1;
移除与商品实体无关或无法直接表征其特征的数据项;
在移除与商品实体无关或无法直接表征其特征的数据项之后,筛除空字段和错误字段;筛除空字段和错误字段之后剩余的字段即为特征字段,将各所特征字段拼接成长文本,得到所述文本数据;文本数据中的每个特征字段都视作独立。
3.根据权利要求2所述的一种基于Doc2Vec和卷积神经网络的多源异构商品信息分类方法,其特征在于,所述预处理的步骤如下:
通过文本分词法对所述文本数据中的每个特征字段进行分词,将特征字段中连续的字序列重新组合成词序列;
构造停用词库,根据停用词库去除所述词序列中的停用词。
4.根据权利要求3所述的一种基于Doc2Vec和卷积神经网络的多源异构商品信息分类方法,其特征在于,构建并训练基于Hierarchical Softmax的PV-DBOW模型的步骤如下:
构建第一样本集,所述第一样本集包括多个所述预处理过的文本数据;
搭建PV-DBOW模型的网络结构,含当前词词向量的输入层、恒等投影层和HierarchicalSoftmax输出层;构建目标函数,目标为所有当前词正确预测其上下文词汇及所在字段标识的总体概率最大;
输入第一样本集;通过随机赋值法确定参数的初始值;使用随机梯度上升法进行迭代训练,对目标函数进行最大化优化,对词向量和参数进行迭代更新;迭代结束后,对所有更新后的词向量进行拼接,得到第一文本特征矩阵。
5.根据权利要求4所述的一种基于Doc2Vec和卷积神经网络的多源异构商品信息分类方法,其特征在于,构建并训练基于负采样算法的PV-DM模型的步骤如下:
搭建模型的网络结构,包括含有当前词上下文词汇及字段标识向量的输入层、求和累加投影层和基于负采样的输出层;构建目标函数,目标为所有上下文词汇及其字段标识正确预测当前词的总体概率最大;
输入第一样本集;通过随机赋值法确定参数的初始值;使用随机梯度上升法进行迭代训练,对目标函数进行最大化优化,对词向量和参数进行迭代更新;迭代结束后,对所有更新后的词向量进行拼接,得到第二文本特征矩阵。
6.根据权利要求5所述的一种基于Doc2Vec和卷积神经网络的多源异构商品信息分类方法,其特征在于,使用线性加权融合法进行文本特征矩阵的融合,得到融合文本特征矩阵,步骤如下:
将所述两个模型得到第一文本特征矩阵和第二文本特征矩阵赋予各自的权值,使得权值之和为1;按对应的词进行线性加权求和运算,得到融合文本特征矩阵。
7.根据权利要求6所述的一种基于Doc2Vec和卷积神经网络的多源异构商品信息分类方法,其特征在于,所述第一文本特征矩阵和第二文本特征矩阵各自的权值可以使用线性回归模型得到。
8.根据权利要求7所述的一种基于Doc2Vec和卷积神经网络的多源异构商品信息分类方法,其特征在于,构建并训练卷积神经网络的步骤如下:
根据所述融合特征文本矩阵,将第一训练样本集转换为词向量构成的第二训练训练样本集;
构建卷积神经网络,所述卷积神经网络由文本向量层、卷积层、池化层、全连接层组成,所述全连接层采用Softmax函数作为激活函数;
利用第二训练样本集对卷积神经网络进行迭代训练,计算出预测值与标签之间的误差,再按极小化误差的方法反向传播调整权重矩阵。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于福建博思软件股份有限公司,未经福建博思软件股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010463517.X/1.html,转载请声明来源钻瓜专利网。