[发明专利]一种企业行业分类方法有效
申请号: | 201711137533.4 | 申请日: | 2017-11-16 |
公开(公告)号: | CN107944480B | 公开(公告)日: | 2020-11-24 |
发明(设计)人: | 陈开冉;吴璐璐 | 申请(专利权)人: | 广州探迹科技有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 广州市华学知识产权代理有限公司 44245 | 代理人: | 刘巧霞;黄磊 |
地址: | 510000 广东省广州市番*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 企业 行业 分类 方法 | ||
本发明公开了一种企业行业分类方法,该方法利用半监督学习的图分裂聚类算法有效地提取了企业的主营业务关键词,并基于梯度提升决策树使用提取的关键词作为特征,训练级联分类器将企业按行业分类,解决了人工分类的繁琐问题。具体方法为:1)利用词向量和半监督图分裂聚类算法提取企业的主营业务关键词,剔除垃圾词,构造关键词库;2)将提取的关键词作为特征输入训练级联分类器,每一级的分类器对企业分类,未分类的企业按下一级的分类器分类。本发明不仅能自动构建更新并分类关键词,而且解决了千万级别的企业行业分类问题,能有效地解决了人工标注的问题。
技术领域
本发明涉及数据分类方法研究领域,更具体的是,涉及行业关键词提取,在企业经营范围与多个行业描述均有交叉的情况下,融合半监督图分裂聚类和级联梯度提升决策树的企业行业分类方法。
背景技术
中华人民共和国国家统计局在2013年发布的行业分类标准中,一共分为20个一级行业,细分为96个二级行业。企业的行业标签是一个重要字段,而全国已有企业达千万级别,并且每天有不少企业孵化,如何快速对企业按行业分类是个重要问题。在以往的行业划分规范中,企业所属行业由企业的经营范围描述而得。但是,由于企业的经营范围描述往往涉及到多个行业的描述,人工分类的工作存在着更多的困难。为了解决人工分类工作繁琐的问题,需要提出企业行业分类方法。
企业行业分类是自然语言处理领域的一个重要应用。首先,在文本特征表示上,有词向量和词袋模型两种。由于行业描述大部分是专有名词,词向量不适用于此场景。并且,如何提取企业描述中的业务关键词,成为了主要问题之一。
其次,常见的分类方法有支持向量机、决策树、神经网络、逻辑回归、k邻近值、自适应增强方法等。支持向量机(Support Vector Machine,SVM)可用于小数据分类,而对于大数据分类难以实施,训练模型速度极慢,难以拟合。决策树(Decision Tree,DT)可对样本快速分类,但是由于对特征决策较为绝对,容易出现过拟合。传统神经网络需要拟合的参数量较大,训练过程极慢,不适用于大数据处理。逻辑回归(Logic Regression,LR)与传统神经网络类似,而k邻近值(K-Nearest Neighbors,KNN)计算复杂,需要大存储量。自适应增强方法(AdaBoost)将多个弱分类器组成强分类器,在分类效果上,略差于梯度提升决策树(Gradient Boosting Decision Tree,GBDT)。除此之外,单个分类器模型过分依赖于样本描述的覆盖率,当对一个从未出现过的描述的新样本分类时,准确率较低。
为此,提供一种分类识别速度快、准确率高的企业行业分类方法具有重要的研究意义和实用价值。
发明内容
本发明的目的在于克服现有技术的缺点与不足,提供一种企业行业分类方法,该方法融合半监督图分裂聚类和级联梯度提升决策树,综合并有效利用了词频逆文档词频(Term Frequency-Inverse Document Frequency,TFIDF)方法、图的分裂聚类方法、k均值聚类方法、词向量和词袋模型、梯度提升决策树等方法,可对企业描述提取主营业务关键词,半监督构建关键词库和自动更新关键词库,并以级联的方式对企业按行业分类。
本发明的目的通过以下的技术方案实现:一种企业行业分类方法,包括步骤:利用词向量和半监督图分裂聚类方法提取企业的主营业务关键词,剔除垃圾词,构造关键词库;将提取的关键词作为特征输入训练级联分类器,每一级的分类器对企业进行分类,未分类的企业按下一级的分类器分类。
具体的,包括步骤:
(1)构造语料库,训练词向量模型;
(2)基于文本中每个词的权重初步提取企业关键词;
(3)用词向量和聚类方法提取企业的主营业务关键词,剔除垃圾词,训练词类模型,得到词类模型分类器;
(4)细聚类筛选出的关键词,构造关键词库;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州探迹科技有限公司,未经广州探迹科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711137533.4/2.html,转载请声明来源钻瓜专利网。