[发明专利]一种基于电商运营的自动类目识别的方法在审
申请号: | 202110690323.8 | 申请日: | 2021-06-22 |
公开(公告)号: | CN113420114A | 公开(公告)日: | 2021-09-21 |
发明(设计)人: | 陈立秀;姚民伟;谢传家 | 申请(专利权)人: | 浪潮卓数大数据产业发展有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/951;G06F40/289;G06K9/62;G06N3/04 |
代理公司: | 济南信达专利事务所有限公司 37100 | 代理人: | 郗艳荣 |
地址: | 214029 江苏省无锡市滨*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 运营 自动 类目 识别 方法 | ||
本发明特别涉及一种基于电商运营的自动类目识别的方法。该基于电商运营的自动类目识别的方法,利用爬虫技术采集电商平台商品信息,爬取商品标题信息;利用神经网络框架训练词向量模型,搭建用于文本分类的深度学习算法模型;对深度学习算法模型进行训练,并根据训练结果对模型参数进行调整,从而提高深度学习算法模型的准确率;将电商运营数据输入训练后的深度学习算法模型,即可自动识别商品类目,对商品进行分类。该基于电商运营的自动类目识别的方法,建立了适用于商品分类的深度学习算法模型,可以根据商品标签实现商品类目的精确性判定,为研究商品分类提供了更加高效的模型。
技术领域
本发明涉及文本分类与深度学习技术领域,特别涉及一种基于电商运营的自动类目识别的方法。
背景技术
最近几年世界主要国家和地区的电子商务无论在规模上还是在数量上都实现了高速发展的基本态势。庞大的消费群体和成熟的互联网技术正在成为电子商务爆发式增长的最强动力,而数量庞大、备选面宽的新品也成功吸引到消费者的关注和使用,有超过7500万的用户成为了重度新品用户。电商行业的快速发展,使得商品的数量越来越多,商品分类成为一个非常重要的环节。
针对现在每天都会产生的大量商品名称,当前产品分类仍然采用的是传统的分类方式:
一种是人工进行分类,这种分类方式虽然比较准确,但分类成本比较高,效率比较低下,同时由于人工分类标准不一致,可能会导致分类结果不准确;
另一种分类方式则是按照20%-80%的原则进行分类,这种分类方式虽然分类的效率会高一些,但是由于分类方式过于简单,会导致分类结果不准确。
如何在保证分类准确率的同时来提高分类的效率成为了研究商品分类的一个重要课题。基于上述情况,本发明提出了一种基于电商运营的自动类目识别的方法。
发明内容
本发明为了弥补现有技术的缺陷,提供了一种简单高效的基于电商运营的自动类目识别的方法。
本发明是通过如下技术方案实现的:
一种基于电商运营的自动类目识别的方法,其特征在于:包括以下步骤:
第一步,利用爬虫技术采集电商平台商品信息,爬取商品标题信息;
第二步,利用神经网络框架训练词向量模型,搭建用于文本分类的深度学习算法模型;
第三步,对深度学习算法模型进行训练,并根据训练结果对模型参数进行调整,从而提高深度学习算法模型的准确率;
第四步,将电商运营数据输入训练后的深度学习算法模型,即可自动识别商品类目,对商品进行分类。
所述第一步中,对商品标题信息进行预处理,将商品标题信息分割成数个中文单词拼接的形式。
所述预处理是指去除符号,并利用开源词向量工具pkuseg对商品标题句子进行分词,去停用词。
所述第二步中,搭建python开发环境Anaconda,利用开源库的神经网络框架训练词向量模型,搭建用于文本分类的深度学习算法模型。
所述神经网络框架采用TensorFlow或Keras。
所述第二步中,词向量模型采用skip-gram算法,词向量维度为128。
所述第二步中,深度学习算法模型采用TextCNN算法模型。
所述第三步中,模型参数包括卷积核个数及dropout值。
本发明的有益效果是:该基于电商运营的自动类目识别的方法,建立了适用于商品分类的深度学习算法模型,可以根据商品标签实现商品类目的精确性判定,为研究商品分类提供了更加高效的模型。
附图说明
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浪潮卓数大数据产业发展有限公司,未经浪潮卓数大数据产业发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110690323.8/2.html,转载请声明来源钻瓜专利网。