[发明专利]一种基于自然语言处理的公司行业分类计算方法在审

申请号：	201811624587.8	申请日：	2018-12-28
公开（公告）号：	CN109710765A	公开（公告）日：	2019-05-03
发明（设计）人：	王凯锋;吴承霖;金立达	申请（专利权）人：	厦门笨鸟电子商务有限公司
主分类号：	G06F16/35	分类号：	G06F16/35
代理公司：	厦门市新华专利商标代理有限公司 35203	代理人：	罗恒兰
地址：	361000 福建省厦门市思明区前埔***	国省代码：	福建;35
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了一种基于自然语言处理的公司行业分类计算方法，通过爬虫获取预分类公司的文本数据，对文本数据进行提取特征、降噪处理和训练词向量，并采用语言模型和迁移学习预训练分类模型后，对文本数据进行层级化分类，实现对目标公司的分类。本发明流程简单、效率高，节省人力物力；本发明通过层级化分类体系可以得到约30个一级分类和约300个二级分类，大大提高了分类的精准度；本发明的模型可以接受不同长度、形式的文本输入，不需要对模型作出任何调整，应用范围更广、实用性更高。
搜索关键词：	文本数据自然语言处理行业分类层级化分类爬虫二级分类分类体系降噪处理人力物力提取特征训练分类一级分类语言模型词向量精准度预分类迁移文本应用学习
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种基于自然语言处理的公司行业分类计算方法，其特征在于包括以下步骤：步骤1、数据获取通过爬虫网页数据，获取包含对于预分类公司的产品或服务的文本描述的文本数据;步骤2、数据分析2.1特征提取：将所有预分类公司的文本数据总和作为语料库，每个预分类公司的文本数据作为一篇文章，对预分类公司的文本数据提取特征，所述特征包括公司的产品、数据来源、TFIDF统计和BOW统计;通过active learning进行数据标注；将网页url分段作为特征，通过noisy channel layer处理，量化数据来源的噪音;2.2数据清洗：通过去除纯数字文本、小写化、去除常见词、去除低频词、词形还原的方式清理文本数据；2.3训练词向量：将清理后的文本数据用GLOVE和word2vec做词向量训练得到词向量；步骤3、深度学习框架结合步骤2.1中提取的特征和步骤2.3中的词向量，应用ELMO、ULMFIT模型和wide and deep模型，进行训练深度学习模型；步骤4、层级化分类通过训练好的深度学习模型，对文本数据进行计算得到一级分类；针对每个一级分类根据数据特征的不同采用不同的模型进行单独训练，得到二级分类的分类器；根据输出的一级分类选择进入的二级分类的分类器，实现对公司的行业分类。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于厦门笨鸟电子商务有限公司，未经厦门笨鸟电子商务有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201811624587.8/，转载请声明来源钻瓜专利网。

上一篇：语料所属情感类别的判别方法、装置、电子设备及介质
下一篇：一种工单数据的投诉倾向分析预警方法及装置

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于自然语言处理的公司行业分类计算方法在审

专利文献下载