[发明专利]一种基于自然语言处理的公司行业分类计算方法在审
申请号: | 201811624587.8 | 申请日: | 2018-12-28 |
公开(公告)号: | CN109710765A | 公开(公告)日: | 2019-05-03 |
发明(设计)人: | 王凯锋;吴承霖;金立达 | 申请(专利权)人: | 厦门笨鸟电子商务有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35 |
代理公司: | 厦门市新华专利商标代理有限公司 35203 | 代理人: | 罗恒兰 |
地址: | 361000 福建省厦门市思明区前埔*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于自然语言处理的公司行业分类计算方法,通过爬虫获取预分类公司的文本数据,对文本数据进行提取特征、降噪处理和训练词向量,并采用语言模型和迁移学习预训练分类模型后,对文本数据进行层级化分类,实现对目标公司的分类。本发明流程简单、效率高,节省人力物力;本发明通过层级化分类体系可以得到约30个一级分类和约300个二级分类,大大提高了分类的精准度;本发明的模型可以接受不同长度、形式的文本输入,不需要对模型作出任何调整,应用范围更广、实用性更高。 | ||
搜索关键词: | 文本数据 自然语言处理 行业分类 层级化 分类 爬虫 二级分类 分类体系 降噪处理 人力物力 提取特征 训练分类 一级分类 语言模型 词向量 精准度 预分类 迁移 文本 应用 学习 | ||
【主权项】:
1.一种基于自然语言处理的公司行业分类计算方法,其特征在于包括以下步骤:步骤1、数据获取通过爬虫网页数据,获取包含对于预分类公司的产品或服务的文本描述的文本数据;步骤2、数据分析2.1特征提取:将所有预分类公司的文本数据总和作为语料库,每个预分类公司的文本数据作为一篇文章,对预分类公司的文本数据提取特征,所述特征包括公司的产品、数据来源、TFIDF统计和BOW统计;通过active learning进行数据标注;将网页url分段作为特征,通过noisy channel layer处理,量化数据来源的噪音;2.2数据清洗:通过去除纯数字文本、小写化、去除常见词、去除低频词、词形还原的方式清理文本数据;2.3训练词向量:将清理后的文本数据用GLOVE和word2vec做词向量训练得到词向量;步骤3、深度学习框架结合步骤2.1中提取的特征和步骤2.3中的词向量,应用ELMO、ULMFIT模型和wide and deep模型,进行训练深度学习模型;步骤4、层级化分类通过训练好的深度学习模型,对文本数据进行计算得到一级分类;针对每个一级分类根据数据特征的不同采用不同的模型进行单独训练,得到二级分类的分类器;根据输出的一级分类选择进入的二级分类的分类器,实现对公司的行业分类。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于厦门笨鸟电子商务有限公司,未经厦门笨鸟电子商务有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201811624587.8/,转载请声明来源钻瓜专利网。