[发明专利]一种基于Doc2Vec和卷积神经网络的多源异构商品信息分类方法在审
申请号: | 202010463517.X | 申请日: | 2020-05-27 |
公开(公告)号: | CN111651597A | 公开(公告)日: | 2020-09-11 |
发明(设计)人: | 黄茉;黄新恩;翁增仁;胡锦锋 | 申请(专利权)人: | 福建博思软件股份有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06N3/04;G06K9/62 |
代理公司: | 福州科扬专利事务所 35001 | 代理人: | 郭梦羽 |
地址: | 350100 福建*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 doc2vec 卷积 神经网络 多源异构 商品信息 分类 方法 | ||
本发明涉及一种基于Doc2Vec和卷积神经网络的多源异构商品信息分类方法,包括如下步骤:接入训练数据,所述训练数据为已有分类信息的多源异构商品信息;对所述训练数据进行清洗,针对每个商品生成一份文本数据;对所述文本数据进行预处理;分别构建PV‑DBOW模型和PV‑DM模型;分别输入预处理后的文本数据至所述的两个模型,各自训练得到文本特征矩阵;融合上述训练所得的两个文本特征矩阵,得到融合文本特征矩阵;构建并训练卷积神经网络,所述卷积神经网络用于商品信息分类;上传待分类的商品数据,进行所述预处理,并根据所述文本特征矩阵抽取出其对应的词向量,输入至已训练的卷积神经网络,得到预测的商品分类,并根据所述商品预测分类对商品进行分类。
技术领域
本发明涉及一种基于Doc2Vec和卷积神经网络的多源异构商品信息分类方法,属于文本分类领域。
背景技术
目前电子商务信息处理中的商品分类方式,一方面是传统的人工查找方法,在筛选商品关键词后,需要人工进行商品所属类别的划分,种类繁多且容易混淆,人工选择工作量较大且容易出错;另一方面目前的自动分类系统,多采用非智能的方案,主要是根据大量的商品关键词建立关键词与商品分类的一一对应关系,并存储在数据库中。首先仍然需要人工筛选商品关键词提供给商品分类系统,系统在数据库中根据关键词进行查找,输出相应的一级类目、二级类目等,若没有匹配的结果将没有输出。该方案存在的主要缺点是需要事先人工筛选商品关键词,而目前实际的商品标题花样繁多,为了提高商品的检索量添加了大量的修饰词语,在人工筛选关键词这一步仍然存在不少工作量,不能做到完全的自动化处理。
同时,自然语言处理中,文本的向量表示方式大部分无法同时考虑到词间语义关系、词间的顺序以及维数灾难问题,从而导致误判率较高。
发明内容
为了解决上述现有技术中存在的问题,本发明提供一种基于Doc2Vec和卷积神经网络的多源异构商品信息分类方法,本发明的技术方案如下:
技术方案一:
一种基于Doc2Vec和卷积神经网络的多源异构商品信息分类方法,包括如下步骤:
接入训练数据,所述训练数据为已有分类信息的多源异构商品信息;
对所述训练数据进行清洗,针对每个商品生成一份文本数据,所述文本数据包含多个特征字段;
对所述文本数据进行预处理,将所述特征字段划分为多个独立的词并去除停用词;
分别构建Doc2Vec中基于Hierarchical Softmax的PV-DBOW模型和Doc2Vec中基于负采样算法的PV-DM模型;分别输入预处理后的文本数据至所述的两个模型,各自训练得到文本特征矩阵;
融合上述训练所得的两个文本特征矩阵,得到融合文本特征矩阵;
构建并训练卷积神经网络,所述卷积神经网络用于商品信息分类;
上传待分类的商品数据,进行所述预处理,并根据所述文本特征矩阵抽取出其对应的词向量,输入至已训练的卷积神经网络,得到预测的商品分类,并根据所述商品预测分类对商品进行分类。
进一步地,所述清洗步骤如下:
遍历训练数据中的数据项,若数据项包含层级嵌套结构,则将数据项展平,使数据结构深度为1;
移除与商品实体无关或无法直接表征其特征的数据项;
在移除与商品实体无关或无法直接表征其特征的数据项之后,筛除空字段和错误字段;筛除空字段和错误字段之后剩余的字段即为特征字段,将各所特征字段拼接成长文本,得到所述文本数据;文本数据中的每个特征字段都视作独立。
进一步地,所述预处理的步骤如下:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于福建博思软件股份有限公司,未经福建博思软件股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010463517.X/2.html,转载请声明来源钻瓜专利网。