[发明专利]一种基于LSTM深度学习的企业国民行业类别预测方法及系统在审
申请号: | 202010636488.2 | 申请日: | 2020-07-03 |
公开(公告)号: | CN111860981A | 公开(公告)日: | 2020-10-30 |
发明(设计)人: | 孙中利;韩春明;孙世敏;赵建明;谷永胜;郑淑贤 | 申请(专利权)人: | 航天信息(山东)科技有限公司 |
主分类号: | G06Q10/04 | 分类号: | G06Q10/04;G06Q50/26;G06F40/289;G06F40/216;G06F16/31;G06F16/35;G06F16/951;G06N3/04;G06N3/08 |
代理公司: | 北京久维律师事务所 11582 | 代理人: | 邢江峰 |
地址: | 250101 山东省济南市高新区新*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 lstm 深度 学习 企业 国民 行业类别 预测 方法 系统 | ||
1.一种基于LSTM深度学习的企业国民行业类别预测方法,其特征在于,所述方法包括以下操作:
获取企业经营范围以及行业类别基础数据,进行预处理获得有效数据;
通过分词工具对有效数据进行分词,获得数据集;
加载数据集,提取数据集特征,将企业经营范围处理成单词索引序列,单词与序号一一对应,将处理后的企业经营范围数据划分训练集和测试集;
搭建深度学习模型,模型中embedding层用word2vec模型中的词向量替换,形成二维向量,将词向量按顺序输入LSTM层中,输出一维向量,通过全连接神经网络层将向量长度收缩为国民经济行业分类的类别数;
设置模型参数,对训练集进行模型训练;
输入测试集的数据和标签,进行测试模型的预测,输出预测结果。
2.根据权利要求1所述的一种基于LSTM深度学习的企业国民行业类别预测方法,其特征在于,所述基础数据的获取包括:
通过网络爬虫从国家工商总局网站爬取部分企业的经营范围以及行业类别;
通过使用特定的接口获取某省部分企业的经营范围以及行业类别。
3.根据权利要求1所述的一种基于LSTM深度学习的企业国民行业类别预测方法,其特征在于,所述数据预处理包括:
数据清洗,包括处理缺失值、平滑噪声值、识别和处理异常值;
对于清洗后的数据进行数据集成。
4.根据权利要求1所述的一种基于LSTM深度学习的企业国民行业类别预测方法,其特征在于,所述embedding层替换后矩阵形状为:单词数*行长度。
5.根据权利要求1所述的一种基于LSTM深度学习的企业国民行业类别预测方法,其特征在于,所述设置模型参数包括训练模型迭代轮次、每次梯度更新的样本数以及交叉验证集的大小。
6.一种基于LSTM深度学习的企业国民行业类别预测系统,其特征在于,所述系统包括:
数据获取模块,用于获取企业经营范围以及行业类别基础数据,进行预处理获得有效数据;
分词模块,用于通过分词工具对有效数据进行分词,获得数据集;
数据集获取模块,用于加载数据集,提取数据集特征,将企业经营范围处理成单词索引序列,单词与序号一一对应,将处理后的企业经营范围数据划分训练集和测试集;
模型搭建模块,用于搭建深度学习模型,模型中embedding层用word2vec模型中的词向量替换,形成二维向量,将词向量按顺序输入LSTM层中,输出一维向量,通过全连接神经网络层将向量长度收缩为国民经济行业分类的类别数;
模型训练模块,用于设置模型参数,对训练集进行模型训练;
预测模块,用于输入测试集的数据和标签,进行测试模型的预测,输出预测结果。
7.根据权利要求6所述的一种基于LSTM深度学习的企业国民行业类别预测系统,其特征在于,所述基础数据的获取包括:
通过网络爬虫从国家工商总局网站爬取部分企业的经营范围以及行业类别;
通过使用特定的接口获取某省部分企业的经营范围以及行业类别。
8.根据权利要求6所述的一种基于LSTM深度学习的企业国民行业类别预测系统,其特征在于,所述数据预处理包括:
数据清洗,包括处理缺失值、平滑噪声值、识别和处理异常值;
对于清洗后的数据进行数据集成。
9.根据权利要求6所述的一种基于LSTM深度学习的企业国民行业类别预测系统,其特征在于,所述embedding层替换后矩阵形状为:单词数*行长度。
10.根据权利要求6所述的一种基于LSTM深度学习的企业国民行业类别预测系统,其特征在于,所述设置模型参数包括训练模型迭代轮次、每次梯度更新的样本数以及交叉验证集的大小。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于航天信息(山东)科技有限公司,未经航天信息(山东)科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010636488.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种耐高温橡胶材料及其制备方法
- 下一篇:一种AGV娱乐运输工具及连接组件
- 同类专利
- 专利分类
G06Q 专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法;其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的处理系统或方法
G06Q10-00 行政;管理
G06Q10-02 .预定,例如用于门票、服务或事件的
G06Q10-04 .预测或优化,例如线性规划、“旅行商问题”或“下料问题”
G06Q10-06 .资源、工作流、人员或项目管理,例如组织、规划、调度或分配时间、人员或机器资源;企业规划;组织模型
G06Q10-08 .物流,例如仓储、装货、配送或运输;存货或库存管理,例如订货、采购或平衡订单
G06Q10-10 .办公自动化,例如电子邮件或群件的计算机辅助管理