[发明专利]一种针对海量多词短文本的集成分类方法有效
申请号: | 201811573390.6 | 申请日: | 2018-12-21 |
公开(公告)号: | CN109657061B | 公开(公告)日: | 2020-11-27 |
发明(设计)人: | 胡学钢;唐雪涛;朱毅;李培培 | 申请(专利权)人: | 合肥工业大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06K9/62 |
代理公司: | 安徽省合肥新安专利代理有限责任公司 34101 | 代理人: | 陆丽莉;何梅生 |
地址: | 230009 安*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 针对 海量 多词短 文本 集成 分类 方法 | ||
本发明公开了一种针对海量多词短文本的集成分类方法,包括:1获取多词短文本集合,并对多词短文本进行分词预处理;2在分词结果上利用Word2vec词向量表示方法中的CBOW连续词袋模型得到词向量表示模型;3基于词向量表示模型,利用Sentence2vec句向量表示方法中的PV‑DM模型,构建句向量表示;4在句向量表示模型基础上利用kNN分类器预测为标记数据的类别标签。本发明能解决传统表示学习方法的“维数灾难”问题,从而提高短文本表示学习的效果,提升文本分类的精度,具有较高的鲁棒性和实用性。
技术领域
本发明涉及文本表示和表示学习方法领域,具体是一种针对海量多词短文本的集成分类方法。
背景技术
随着商品经济的不断繁荣,各种新兴商品、服务不断涌现。依据国家规定,企业和个人在经营中需按照要求开具增值税发票,开具发票时票面上的商品应与税务总局核定的税收编码进行关联。然而,税务总局核定的税收编码有4200余类,种类繁多,传统的由人工手动选择税收分类编码的方式不仅要求纳税人有一定的专业知识,还容易出现填写错误的情况,增加企业经营时间成本,造成经济损失。随着信息化时代的到来,计算机技术的发展和数据资源的爆炸性增长,为解决这类问题提供了方法。
税收编码分类任务是要依据货物名称将货物和正确的税收分类编码进行匹配,本质上是文本分类问题,人工输入的货物名称较为混乱,长则数十字,短则两三个字,其中夹杂数字和各种符号。极短的不规则的文本为分类任务带来了难度。同时,分类任务需要处理650万经过人工标记的数据和1000万未标记数据,海量的数据也为表示学习带来了困难。在一些情况下,货物名称中很大一部分都是无用信息,通过提取关键词可以更好的对货物进行描述,例如“晨光(MG)E01精英系列按动子弹头中性笔签字笔水笔0.5mm12支/盒黑色AGP89703”。但还有一些情况难以利用提取关键词的方法,例如“医用植入钢钉”,如果采取关键词方法,将“钢钉”作为关键字,最终的落点是归属建筑材料,造成错误。还有类似“滑板砖真空-压力沥青浸煮设备”和“精加工成品”的货物名称,难以找到合适的关键词或者信息过少,难以通过提取关键词的方法获得有效信息。最终我们采取了将货物名称作为一个整体进行文本表示学习,用于表示货物名称,以进一步进行分类。表示学习作为机器学习的基础,其结果直接影响着整个系统的分类效果。
针对文本表示学习方法,研究者们提出了许多方法。独热表示(one-hotrepresentation)将词语表示为向量,向量上只有某一维非零表示该词出现,其余维度上值均为零。Josef等人基于自然语言处理模型提出了词袋模型(Bag of Words),在one-hotrepresentation的基础上,词袋模型进一步考虑了词频因素,在对一段文本进行分词后,用向量对其进行表示,将词语出现的频数记录在向量上。独热表示和词袋模型的向量维度取决于整个文本的词汇数,在处理大规模数据时,维度过大难以处理。Sklearn提供了HashingVectorizer通过哈希函数映射来降低向量的维度。然而以上的表示学习方法表示的词向量之间是孤立的,都无法对到词汇之间的关系进行描述。另外虽然Hashing Vectorizer采取了降维的方法,但由于生成的是高维稀疏的向量,在处理大规模数据时仍然容易带来“维数灾难”问题。“维数灾难”是指在高维情况下出现数据样本稀疏、距离计算困难等问题,是所有机器学习方法共同面临的严重障碍。
发明内容
本发明为解决上述现有技术的不足之处,提供一种针对海量多词短文本的集成分类方法,以期能解决传统表示学习方法的“维数灾难”问题,从而提高短文本表示学习的效果,提升文本分类的精度,并具有较高的鲁棒性和实用性。
为了达到上述目的,本发明所采用的技术方案为:
本发明一种针对海量多词短文本的集成分类方法的特点在于包括以下步骤:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于合肥工业大学,未经合肥工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811573390.6/2.html,转载请声明来源钻瓜专利网。