[发明专利]一种基于知识图谱的集成电路产业链识别方法及系统在审
申请号: | 202011043221.9 | 申请日: | 2020-09-28 |
公开(公告)号: | CN112115277A | 公开(公告)日: | 2020-12-22 |
发明(设计)人: | 陈青山;许国良;蒋渊洋;邓杨;高宏华 | 申请(专利权)人: | 中国建设银行股份有限公司 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06Q10/04;G06Q10/06;G06F40/279;G06N20/00 |
代理公司: | 北京三友知识产权代理有限公司 11127 | 代理人: | 贾磊;李辉 |
地址: | 100033 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 知识 图谱 集成电路 产业链 识别 方法 系统 | ||
1.一种基于知识图谱的集成电路产业链识别方法,其特征在于,包括:
建立集成电路产业链本体模型;
建立集成电路行业关系图谱;
根据所述集成电路产业链本体模型和所述集成电路行业关系图谱,建立用于识别企业是否属于集成电路一级行业的识别模型;
根据所述识别模型,确定待识别的企业是否属于集成电路一级行业。
2.根据权利要求1所述的方法,其特征在于,所述的建立集成电路产业链本体模型,具体包括:
建立集成电路产业链本体模型,所述集成电路产业链本体模型包括:两种实体和两种关系;所述两种实体包括:行业和企业;所述两种关系包括:父子行业关系、企业和行业关系。
3.根据权利要求1所述的方法,其特征在于,所述的建立集成电路行业关系图谱,具体包括:
根据行业分类标准,建立集成电路行业实体,所述集成电路行业实体包括一级行业和二级行业,并且建立行业之间的父子行业关系,形成集成电路行业关系图谱。
4.根据权利要求1-3中任一项所述的方法,其特征在于,所述的建立用于识别企业是否属于集成电路一级行业的识别模型,具体包括:
根据工商数据,建立二分类机器学习识别模型,以识别企业是否属于集成电路一级行业。
5.根据权利要求4所述的方法,其特征在于,所述的根据工商数据,建立二分类机器学习识别模型,以识别企业是否属于集成电路一级行业,具体包括:
正负样本定义:从包括人工标记的企业数据和工商企业数据的数据源中获取正样本和负样本;所述正样本对应的行业标签为集成电路一级行业标签,所述负样本对应的行业标签不是集成电路一级行业标签;
特征处理:对包括正样本和负样本在内的第一样本数据进行数据特征预处理,所述的数据特征预处理是指对文本特征数据进行向量化处理;其中,所述向量化处理包括:
利用分词算法对企业经营描述文本进行分词处理;
利用停用词表对分词处理获得的单词进行停用词过滤处理;
利用word_to_ix编码表对企业经营描述文本中所有出现过的单词进行编号处理;所述的word_to_ix编码表用于将汉语文本数据编码成1~N数字的索引表;利用word_to_ix编码表中的编号,替换经过分词处理和停用词过滤处理后的企业经营描述文本的对应单词;
对文本编码化处理后的企业经营描述文本进行文本长度截断处理和填补处理,以使得处理后的每个企业经营描述文本包括相同数量的词汇;
对经过文本长度截断处理和填补处理后得到的数据进行文本向量化处理,形成二维矩阵;
得到包括所述正样本、所述负样本和所述二维矩阵在内的第二样本数据后,将所述第二样本数据按照预设的比例划分为训练集和测试集;
模型训练:根据分类算法、所述训练集和所述测试集进行集成电路二分类机器学习识别模型训练,通过网格搜索法对多个超参数进行迭代,确定所述多个超参数的最佳配置组合。
6.根据权利要求5所述的方法,其特征在于,所述分类算法包括:Xgboost分类算法、逻辑回归分类算法、或者随机森林分类算法。
7.根据权利要求1或5所述的方法,其特征在于,还包括:建立识别集成电路二级行业的多分类模型;根据所述多分类模型,确定待识别的企业所属于的集成电路行业的二级行业。
8.根据权利要求7所述的方法,其特征在于,所述的建立识别集成电路二级行业的多分类模型,具体包括:
根据文本匹配法,识别企业所属的集成电路二级行业标签,作为机器学习多分类模型的训练样本;
根据机器学习多分类方法和所述训练样本,建立用于识别企业所属的集成电路行业的二级行业的多分类模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国建设银行股份有限公司,未经中国建设银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011043221.9/1.html,转载请声明来源钻瓜专利网。