[发明专利]一种企业领域分类及企业关键词筛选方法有效
申请号: | 201810563448.2 | 申请日: | 2018-06-04 |
公开(公告)号: | CN109101477B | 公开(公告)日: | 2023-01-31 |
发明(设计)人: | 邝野;夏思宇;李钢 | 申请(专利权)人: | 东南大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/216;G06F40/289;G06Q10/06 |
代理公司: | 南京苏高专利商标事务所(普通合伙) 32204 | 代理人: | 柏尚春 |
地址: | 211100 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 企业 领域 分类 关键词 筛选 方法 | ||
1.一种企业领域分类及企业关键词筛选方法,其特征在于,该方法包括如下步骤:
(1)对企业文档语料库进行训练,建立所有企业领域的分类词典;
(2)根据步骤(1)得到的企业领域分类词典,对目标企业进行领域分类;
(3)根据步骤(2)得到的目标企业的领域分类,提取该目标企业的企业标签;
步骤(1)中,建立所有企业领域的分类词典方法如下:
(1.1)对所有企业领域的训练语料库中的文档进行文本预处理,得到所有企业领域所对应的词语,并记录词语的词性;
(1.2)计算企业领域dj词语的词频TFij
式(1)中,fij代表了词语ti在企业领域dj的所有文档中的出现次数,∑jfij是目标企业领域dj中所有文档的所有词语的总数;
(1.3)计算企业领域dj词语的逆向文档频率IDFi
其中,N是所有领域语料库中所有企业文档数目,即总语料库,DFi代表了总语料库中包含了词语ti的文档数目;
(1.4)引入方差因子,其计算方法如下:
式(3)中,VARi代表词语ti的方差因子,K是企业领域的总数量,DF(i,j)是在企业领域dj中包含了词语ti的文档数量,DFj是企业领域dj中所有文档数量,DFC(i,j)为DF(i,j)与DFj的商,即对DF(i,j)的归一化操作,是每一个企业领域包含了词语ti的文档数量的平均值;
(1.5)计算企业领域dj所有词语的权重
TF-IDFi=VARi*TFij*IDFi (4)
对步骤(1.5)计算得到企业领域dj词语的TF-IDF权重进行排序,去掉其中所有词性不是名词的词语,得到筛选过后的新的词表,并取新词表中权重前Num%的词语作为候选关键词,进一步过滤与企业领域无关的噪声词,得到企业领域dj的分类词典,根据上述方法计算所有企业领域的分类词典;
步骤(3)中,企业标签词提取方法如下:
(3.1)对目标企业的文档进行预处理,得到与目标企业相关的所有词语;
(3.2)计算目标企业所有词语的词频TFic
式(5)中,fic代表了词语ti在待处理的目标企业所有文档集合Pc中的出现次数,∑cfic是目标企业所有文档集合Pc中所有词语的总数;
(3.3)计算目标企业所有词语的逆向文档频率IDFi
其中,M是目标企业被分类到的企业领域中所有企业文档数目,DFi代表了这些文档中包含了词语ti的文档数目;
(3.4)计算目标企业词语ti权重:
TF-IDFi=TFic*IDFi (7)
根据公式(7)计算目标企业所有词语的权重,并进行权重排序,选择权重最大的词语作为企业标签词。
2.根据权利要求1所述的一种企业领域分类及企业关键词筛选方法,其特征在于,步骤(2)中,目标企业领域分类方法如下:将目标企业的文档处理得到的词集合与每一个企业领域建立的分类词典的词集合分别进行比较,比较目标企业的词集合与每一个企业领域分类词典的词集合相似度,取相似度最大的企业领域作为目标企业的所属领域。
3.根据权利要求2所述的一种企业领域分类及企业关键词筛选方法,其特征在于,所述相似度计算方法为:目标企业的词集合与每个领域分类词典词集合相同的词的数量除以每个分类词典自身的总词数并乘以百分之百。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东南大学,未经东南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810563448.2/1.html,转载请声明来源钻瓜专利网。