[发明专利]一种面向纸包装及其相关行业的企业多元标签标识方法在审
申请号: | 201911335749.0 | 申请日: | 2019-12-23 |
公开(公告)号: | CN111191001A | 公开(公告)日: | 2020-05-22 |
发明(设计)人: | 陈家银;龚小龙;陈曦;麻志毅;彭军民 | 申请(专利权)人: | 浙江大胜达包装股份有限公司;浙江省北大信息技术高等研究院;杭州未名信科科技有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/35;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 杭州融方专利代理事务所(普通合伙) 33266 | 代理人: | 沈相权 |
地址: | 311201 浙江省*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 纸包装 及其 相关 行业 企业 多元 标签 标识 方法 | ||
1.一种面向纸包装及其相关行业的企业多元标签标识方法,其特征在于按以下步骤进行:
(一)、多元标签体系构建:
企业多元标签是指利用那些没有直接商业价值的企业数据,通过清洗、整理、挖掘,并抽象出能直接满足业务需求的信息,然后以多个标签的形式展示出来,支持企业精准分类、高效复杂查询相关需求;
本发明利用企业公开的七个特征数据,具体包括“公司名称”、“注册地址”、“注册资本”、“公司类型”、“所属行业”、“经营范围”、“公司简介”,构建面向纸包装及其相关行业的企业多元标签体系;
该标签体系主要涵盖五个维度:运输距离、纸包装需求量、纸包装类型、企业营销关系和行业类别;其中运输距离包含5个标签、纸包装需求量有3个标签、纸包装类型5个标签、企业营销关系有3个标签、行业类别有198个标签,共计214个标签;
下面详细介绍这五个维度上的标签:
①运输距离标签,是企业之间的地理位置信息的概括,具体取值为“同区”、“同市”、“同省”、“国内”、“国外”;该类别标签主要从企业“注册地址”特征数据上识别出来,有的“公司名称”也涵盖与运输距离标签相关的信息;运输距离标签是为了解决纸包装行业运输距离限制的问题,能让市场人员快速评估潜在客户与自身工厂之间的运输距离;
②纸包装需求量标签,是一个企业对纸包装需求量信息的概括,具体取值为“量大”、“量中”、“量小”;该类别标签主要依赖企业的“所属行业”、“注册资本”和“公司类型”三个特征数据;有了这类标签,可便捷知道潜在客户的重要性;
③纸包装类型标签,具体取值为“纸箱”、“纸盒”,“纸袋”,表示一个企业所需求的纸包装主要属于哪种类型,可从“所属行业”进行判断识别;
④企业营销关系标签,具体取值为“同行”、“客户”、“供应商”;它对一个公司的上下游企业进行分类,主要从企业“所属行业”和“经营范围”两个特征上的数据进行识别;有了企业营销关系标签,可让纸包装行业的公司轻松知道其他行业的企业与自己的关系,进而采取不同的应对策略;
⑤行业类型标签,主要参考国家2017年发布行业分类标准,以及纸包装行业的市场特点和业务需求,在国家行业分类标准的基础上进行缩减和修改,重新制定了一套面向纸包装行业的行业分类标签,主要包括“制造业”和“交通运输、仓储和邮政业”;因考虑到很多行业是对纸包装没有需求的,以“其他行业”的标签进行展示;
在上述的多元标签体系中,运输距离、纸包装需求量、纸包装类型、企业营销关系维度只包含一级标签,行业类别维度包含三级标签且存在层次关系,其他维度标签与行业类别标签上都存在相关性;在上述的标签体系,如果一个企业在行业类别维度上匹配到“其他行业”标签,那么该企业其他标签都为空,即不是考虑范围的企业;除上述情况外,每个企业将会得到7个对应多元标签;
(二)、多元标签识别:
目前关于多元标签的学习算法有很多,主要可以分为两大类:一是基于问题转化的方法,简称:Problem Transformation,解决思路是转化问题数据,使之适用现有的算法,二是基于算法适应的方法,简称:Algorithm Adaptation,针对某一特定的算法进行扩展,从而能够直接处理多元标签问题;前者主要是传统的机器学习方法,后者主要是基于深度学习的方法;
考虑到基于传统机器学习的方法简单、适合对单维度标签进行识别,本发明先利用这类方法分别在四个维度标签进行迭代识别,解决标注数据缺乏的问题;具体步骤:(1)基于规则生成少量标注数据,利用KNN、决策树和二分类三个模型进行训练;(2)利用训练好的三个模型对未标记数据进行识别,若识别结果一致,放入标记数据集合,若不一致,交给人工进行校正;(3)重复前两步,迭代形成新的标记数据;有了足够的标记数据,考虑标签之间的相互关系,最后使用XML-CNN深度学习模型,对所有类型标签一起识别,提升准确率,也同时解决多个单独模型后期维护困难的问题;
①基于规则生成少量初始数据:
在标签体系的四个维度上,分别基于规则启发的形式,生成各自标签对应的标记数据;(1)在运输距离标签上,利用网上的地名词库表和公司类型词库在对应的企业信息上进行查找匹配,主要匹配比较规律的数据,然后转成对应的标签;(2)在行业类别标签上,本发明是利用制定的纸包装行业分类的标准,整理出一个简单的行业类别映射词库,使用双数组Tire树的方法与“所属行业”、“经营范围”的前几个词进行匹配,识别出少量的标签;(3)在企业营销关系上,是通过识别的行业标签和主营产品来判断企业关系,例如若是“造纸和纸制品业行业”,可识别为“同行”标签;(4)在纸包装需求量和纸包装类型上,根据行业知识和业务经验,利用“所属行业”、“注册资本”和“公司类型”进行规则启发,比如一家企业是家电行业,则纸包装类型为“纸箱”,若是股份制企业或者“注册资本”大于5000万人民币,则纸包装需求量为“量大”;通过上述的规则启发,生成初始的带标记数据集S0,进入下一个环节;
②多模型识别迭代:
在上一步骤生成的少量标记数据S0上,本发明使用传统常用的算法KNN、决策树和二分类的方法进行迭代训练学习,生成大量标注数据;具体是在单个标签维度上训练三个对应模型,接着对未标记数据进行预测,若三个模型预测的结果是一致的,该条数据就可以加入训练数据集中;若不一致,则交给人工进行校正,再加入训练集中,进行下次迭代,当训练数据集超过一定量,如20万条,就利用深度模型的方法建立一个完整的多元标签识别算法;设定初始数据为S0(分训练集和测试集),未标记数据集为D={(x1,y1),(x2,y2),...,(xn,yn)},xi={xi1,xi2,..,xi6},xi代表每条数据有6个对应的特征数据向量,每个向量是特征数据文本分词后,利用word2vec训练的词向量按行进行拼接而成,xi∈Rh*d,其中h为每个特征向量长度,d为词向量的维度,一般取100维;yi为对应标签的取值,yi属于[L1,L2,..,Lt],n为样本数量,t为标签的个数;识别过程中都将训练样本转成单个标签的二分类进行识别;
②.1KNN识别模型:
KNN模型思想是计算两两样本的距离,然后判断未知样本更接近哪些已知样本;然后利用投票的方式决定未知样本的标签;损失函数采用常用的平方损失函数,距离计算公式如下:
一般取p=2的欧式距离来计算,当一个预测样本跟周围k个样本紧邻,取k个样本标签类别最多的一类为该预测样本的标签;
②.2决策树:
在决策树选择上,选择了CART分类树,是使用基尼系数来衡量信息纯度的,具体为:
其中pi是样本属于i类别的概率,这个过程采用随机森林的集成方法,考虑到该步骤就是多算法的融合,采用CART分类树的方法;
②.3二分类:
二分类方法的思路是按照标签数量分别建立分类器,分类方法可为逻辑回归、SVM,本发明选择的是SVM的方法,SVM是指支持向量,预测时将每个分类器预测的结果加起来即为最终的结果;
在数据集S0分别训练上述三个模型,对应为f1,f2,f3,采用F值评价标准,将各个模型调式到最优;对同一条未标记数据识别的结果分别是r1,r2,r3,若r1=r2=r3,不需要校正,这里的数据是指xj,yj;否则,人工参与校正;将新产生的标注数据加入S0,按上述方式进行迭代;
③XML-CNN企业多元标签识别:
当标注数据集合满足一定量后,应用XML-CNN深度模型来训练一个完整版的识别模型;其原因是将标签之间的关联关系信息进行表达学习,提高标签整体识别效果;XML-CNN模型是CNN模型的一个变体,CNN是指卷积神经网络,相比其他深度模型,如双向循环神经网络、transformer模型,模型运行效率要高很多而且识别效果最佳;具体是将企业各个信息维度按词的粒度进行表征、接着卷积、动态池化、然后加全连接层、最后以sigmoid二元损失的方式进行输出,转成多元标签的概率问题,若概率大于制定的阈值,就输出该标签;
(1)Embedding:
将一个企业按信息维度表征成e1:m=[e1,..,em]∈Rm*d,其中m为七个维度信息中文本总长度;其中“经营范围”和“公司简介”有长度限制,若文本长度超过200就进行截断,“注册资本”里的数字整体作为一个词进行处理;d为词的维度大小,通常100维;
(2)Convoluation:
ci=gc(vTei:j+h-1),卷积核大小v∈Rf*d,一般f取2,3,4,表示不同的窗口大小,抽取N-gram特征,使用不同的卷积核,抽取不同层面的语义信息,核数量一般取128;一个卷积核得到c=[c1,..,cr]的卷积序列,r=m-h+1;
(3)Dynamic Max Pooling:
卷积后,将c平均分成p段(本发明p取3,因为标签体系最大深度为3),然后每段取最大值,最后输出,P(c)=[max{c1:r/p},..,max{cr-r/p:r}];
(4)Fully connected bottleneck layer:
将动态池化后的结果加入一个瓶颈状的全连接层,也就是该的层隐藏单元数量远远小于输出层的标签数量,这样的好处就是提高拟合能力;f=wog(whP),其中,Wh∈Rh×t×p andWo∈RL×h,t为卷积核数量,h为该层隐藏单元数量,L为输出的标签数量,g为激活函数,采用tanh;全连接层后面接着输出层,使用sigmoid函数进行预测;
(5)Loss function
使用的损失函数为二分类损失函数,表达式为:
其中:σ是sigmoid function,
在进行评价的时候采用排序领域的DCG@K和NDCG@K方法,K=7另外外加二分类规则进行限制——如果一个标签的父类预测错误,那么不论子类预测的对否,都视为该条数据预测错误;NDCG表示归一化折损累积增益,将每个预测列表的标签相关评分值reli相加,再除以位置的对数值,意味越靠前的标签越重要,NDCG是在DCG基础上进行归一化;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大胜达包装股份有限公司;浙江省北大信息技术高等研究院;杭州未名信科科技有限公司,未经浙江大胜达包装股份有限公司;浙江省北大信息技术高等研究院;杭州未名信科科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911335749.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:页面资源的更新方法、装置、计算机设备和存储介质
- 下一篇:一种药品审计方法