[发明专利]基于响应度衡量的并行LSTM结构海关商品分类方法有效
申请号: | 201910068278.5 | 申请日: | 2019-01-24 |
公开(公告)号: | CN110008337B | 公开(公告)日: | 2022-08-19 |
发明(设计)人: | 杨浩恩;束维国;郭磊;黄伟;陆军;叶勇 | 申请(专利权)人: | 科大国创软件股份有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/289;G06F40/216;G06K9/62;G06N3/04;G06N3/08;G06Q10/08;G06Q40/00 |
代理公司: | 合肥洪雷知识产权代理事务所(普通合伙) 34164 | 代理人: | 孙小华 |
地址: | 230000 安*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 响应 衡量 并行 lstm 结构 海关 商品 分类 方法 | ||
本发明公开了一种基于响应度衡量的并行LSTM结构海关商品分类方法,涉及海关税务领域。本发明由一不同特征数据的并行网络结构和两个网络输出部分特征响应机制组成,包括文字数据的数字化向量生成、深度并行LSTM的响应度衡量、适用的softmax概率化定义置信度来专门处理归类要素多元化的算法结构。本发明通过不同数据的并行网络结构和多个网络输出部分特征响应机制,先对海关商品进行先验知识和数据处理,利用大数据技术和深度学习计算将海关海量数据用于模型优化,提高了海关税则号的精准度和准确率。
技术领域
本发明属于海关税务领域,特别是涉及一种基于响应度衡量的并行LSTM结构海关商品分类方法。
背景技术
海关的报关货物要上交不同比例的税费,这些税费由税则号唯一确定,但是在实际生产生活中,由于公司本身对归类知识掌握不够透彻、每天的报关数据非常庞大、海关报关税则号核对人员不足等情况,使得国家通关税费的收取难以做到精准精确。
为了解决这一问题,解放大量的人力物力,我们设计出了基于LSTM的海关归类算法。
在实际算法设计中,我们遇到了很多技术难题:
1.海关的数据偏度非常大,有的税则号只有寥寥几个,有的则动辄几十上百万,这可能会导致算法偏向于数据量大的税则号。
2.海关数据来自于各个不同的公司,每个公司申报税则号的格式和表示方法都不尽相同,所以要让算法真正理解报关数据的内容。
3.海关数据缺失严重,因为有不报,漏报,未知,免税商品等等问题,所以同一税则号下的数据结构都是不尽相同的。
4.临近税则号商品规划非常相似,部分商品更是必须要通过商品规格才能准确判断。
5.海关的数据量非常巨大,对于数据处理速度和数据响应时间的高要求。
6.海关报关物品品类繁杂,有些商品的归类税则号还有所争议。
7.海关的数据也不能完全保证归类的正确性。
综上所述,设计一种基于深度学习的智能归类算法,以便克服上述技术问题,提高海关报关验核准确度的同时降低误报风险。
发明内容
本发明的目的在于提供一种基于响应度衡量的并行LSTM结构海关商品分类方法,通过对海关商品进行先验知识和数据处理,利用大数据技术和深度学习计算将海关海量数据用于模型优化,解决了现有的海关税则号管理难、统计不精准的问题。
为解决上述技术问题,本发明是通过以下技术方案实现的:
本发明为一种基于响应度衡量的并行LSTM结构海关商品分类方法,本方法由一不同特征数据的并行网络结构和两个网络输出部分特征响应机制组成,具体实现海关商品分类方法包括如下步骤:
步骤S01:分别对商品名称和商品规格进行分离并进行数据清洗;
步骤S02:分别对商品名称和商品规格进行分词,并挑选出出现次数高的数据进行one-hot编码;
步骤S03:将编码好的数据放入embedding结构,获取一个可优化的语法逻辑结构;
步骤S04:将输出语法逻辑结构的浮点型编码数据输入一个并行的多层LSTM网络,并分别针对海关归类数据的商品名称和商品规格,输出特征数据;
步骤S05:输出的特征数据再进行一个多层的全连接网络再拟合;
步骤S06:对两个网络输出的结果成绩使用响应模型,针对两种分离数据进行整合,输出两组蕴含数据的属性,最终得到商品名称和商品规格的响应数据;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于科大国创软件股份有限公司,未经科大国创软件股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910068278.5/2.html,转载请声明来源钻瓜专利网。