[发明专利]一种企业行业分类方法有效
申请号: | 201711137533.4 | 申请日: | 2017-11-16 |
公开(公告)号: | CN107944480B | 公开(公告)日: | 2020-11-24 |
发明(设计)人: | 陈开冉;吴璐璐 | 申请(专利权)人: | 广州探迹科技有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 广州市华学知识产权代理有限公司 44245 | 代理人: | 刘巧霞;黄磊 |
地址: | 510000 广东省广州市番*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 企业 行业 分类 方法 | ||
1.一种企业行业分类方法,其特征在于,包括步骤:
(1)构造语料库,训练词向量模型;
(2)根据词频逆词频计算每篇文档中每个词的权重,基于文本中每个词的权重初步提取企业关键词;
(3)用词向量和聚类方法提取企业的主营业务关键词,剔除垃圾词,训练词类模型,得到词类模型分类器;所述步骤(3)中,对多篇已提取的关键词使用词向量和k-means聚类,以词向量计算两个词之间的欧式距离;聚类后,人工干预对k个类按主营业务关键词和垃圾词划分为两类,使用梯度提升决策树对垃圾词和关键词训练词类模型;
(4)细聚类筛选出的关键词,构造关键词库;
(5)处理特征输入,训练层次分类器和级联分类器,其中层次分类器由一级行业分类器和二级行业分类器组成,级联分类器由多个层次分类器组成;
(6)提取新关键词并自动更新关键词库,步骤包括:
(6-1)基于步骤(3)、(4)得到的词类模型分类器和关键词库,对新文本描述分词,使用垃圾词库对分词结果匹配,剔除垃圾词;使用TFIDF方法提取前n个关键词,并且使用关键词库对分词结果匹配,找出在库中的关键词,和前n个不在库中的关键词;
(6-2)对前n个不在库中的关键使用词类模型分类器分类,若分为垃圾词则对垃圾词库补充,若为关键词则进入步骤(6-3)下一步验证;
(6-3)对词类模型分类的关键词计算每个词到每个关键词类的平均距离,归类到最短距离的关键词类;然后对该关键词类进行2-means划分,使用强弱团体判别是否满足分裂条件,并统计分裂后的词数是否大于2,更新关键词库和关键词类;最后将在库的关键词和提取的新关键词作为样本的关键词标签;
强团体:若一个集合V内的每个词到集合内所有其他词的余弦相似度的均值大于到另一个集合中所有词的余弦相似度的均值,则称此集合为强团体;
弱团体:若一个集合V内的所有词到集合内所有其他词的余弦相似度的和的均值大于此集合内的所有词到另一个集合中的所有词的余弦相似度的和的均值,则称此集合为弱团体。
2.根据权利要求1所述的企业行业分类方法,其特征在于,所述步骤(1)中,从企业简介、企业专利、企业招聘信息、企业经营范围描述中获取文本,训练N维的词向量模型。
3.根据权利要求1所述的企业行业分类方法,其特征在于,所述步骤(2)初步提取企业关键词的步骤是:首先对文本描述分词,其次剔除停用词,再筛选特定词性的词语,最后根据词频逆词频计算每篇文档中每个词的权重,删除权重值低于预设值的词,剩下的即为初步提取的企业关键词。
4.根据权利要求1所述的企业行业分类方法,其特征在于,所述步骤(4)中,细聚类的方法是对已筛选出的关键词再次进行k-means聚类细分,得到多个类别的关键词,构造出每个类别对应的关键词库。
5.根据权利要求1所述的企业行业分类方法,其特征在于,所述步骤(5)的具体步骤是:
(5-1)对企业经营范围描述使用TFIDF算法提取关键词,使用关键词库对未能提取的关键词匹配进行补充;将训练样本中所有经营范围描述所提取的关键词组成词袋,即每个词对应一个词ID;使用词袋模型向量化企业经营范围的描述;
(5-2)训练层次分类器的步骤是:层次分类器由一级行业分类器和二级行业分类器组成,一级行业分类器由M个模型组成,代表M个一级行业;在第i个模型中,以行业i的描述作为正样本,其他行业j的描述作为负样本,j≠i,使用梯度提升决策树算法训练模型;
二级行业分类器的模型数为P,代表P个二级行业,其中,每个一级行业下有相关的二级行业分类模型;训练一级行业下的二级行业分类器与一级行业分类器同理,若样本被一级行业分类器预测为该一级行业,则使用该一级行业下相关的二级行业分类模型对样本再次预测,得到该样本的二级行业类别;
(5-3)训练级联分类器的步骤是:级联分类器由多个层次分类器组成,假设总分类器由多级分类器A、B、C组成,首先使用A级分类器对样本分类,若未能分类,则继续使用下一级分类器分类;若能分类则输出结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州探迹科技有限公司,未经广州探迹科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711137533.4/1.html,转载请声明来源钻瓜专利网。