[发明专利]一种基于注意力机制的商品名称短文本分类方法和系统有效
申请号: | 202110307421.9 | 申请日: | 2021-03-23 |
公开(公告)号: | CN113157918B | 公开(公告)日: | 2022-07-22 |
发明(设计)人: | 高楠;陈国鑫;陈磊;杨归一;方添斌;俞果 | 申请(专利权)人: | 浙江工业大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/289;G06F40/30;G06N20/00 |
代理公司: | 杭州天正专利事务所有限公司 33201 | 代理人: | 王兵 |
地址: | 310014 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 注意力 机制 商品名称 文本 分类 方法 系统 | ||
一种基于注意力机制的商品名称短文本分类方法,包含:对商品名称进行预处理,去除非中文字段以及一些特殊字符;通过jieba分词,将预处理后的商品短文本分成若干个词,去除停用词,对得到的词进行短补长切,统一词的长度到事先设定好的词个数;将每个词利用Global Entity Linking算法进行实体消歧与链接,通过链接到百度百科的外部知识库,用其结果对短文本中的词扩充解释,并将实体链接的结果利用Bert进行word embedding编码,得到相应的特征向量;将得到的向量喂入Transformer网络,利用self‑attention机制,挖掘不同词对于税码分类的共享程度,赋予不同词的不同权重,最后通过Softmax对其进行分类,将概率最高的税码类别作为商品名称所属类别。本发明还包括实施上述发明方法的系统。
技术领域
本发明涉及一种基于注意力机制的商品名称短文本分类方法和系统,特别是针对商品名称对应税码的分类。利用中文文本分词工具对文本进行分词,将每个商品名称的词进行短补长切调整统一的词个数后,利用Bert对每个词进行word embedding得到对应的词向量,将词向量喂入Transformer后,利用注意力机制,得到各个词的权重信息,最后通过Softmax进行分类。本发明涉及概率模型,语音模型,深度学习等领域,具体涉及基于深度学习的建模领域。
背景技术
随着社会的不断发展,税码分类体系越来越复杂,如何将海量的商品名称准确地划分到对应的税码分类是一种重要的技术需求。越来越多的企业需要开商品发票,由于交易量的剧增,人工进行税码分类的方法存在效率不高、成本巨大且分类结果受到的人偶然性错误的影响,同时对税码不熟悉的人也难以完成我国高达4000多种的税码分类。因此,利用程序解决繁重的分类问题才是当下的趋势。
商品名称的税码分类存在以下几个问题:
(1)商品名称的记录大多由人工完成,导致了商品名称中大多包含很多噪声,需要滤除其中的噪声,以减少对税码分类的影响。
(2)商品名称大多是短文本类型,仅有几个词组成,无法有效的提取上下文信息,也导致目前主流的自然语言处理的方法在此问题上受限。
(3)在我国,五级税码分类高达4000余种,种类繁多,属于超分类难题,目前很难有有效的方法解决。
目前税码分类的方法大致有两种:
1)关键词匹配,即构造一个税码到关键词的1:N的映射关系,然后在给定的商品名称中匹配相应的关键词,即可完成税码分类任务。
2)基于机器学习的分类方法,即将税码匹配的问题转化为一个分类问题,利用机器学习或者深度学习的模型予以解决。
关键词匹配的方法,较为简单,但是严重依赖于关键词库的大小以及准确度,只能匹配到关键词库中已经存在的一些商品,而且关键词必须显式的存在与商品名称中。如果商品名称中不包含词库中的关键词,则匹配失效。虽然可以通过一些算法解决关键词分隔的问题,比如关键词是“小麦面粉”,而商品名称是“东北小麦优质面粉”的情况。但是无法解决若干个关键词同时出现在商品名称中的情况,目前一些做法是在匹配得到的关键词中取较长的作为最终的关键词,但是该策略无法解决全部等长的关键词,比如商品名称“钢笔,附赠小瓶墨水”,商品的主体是“钢笔”,但关键词库中也会同时匹配得到“墨水”,关键词匹配的算法无法区分两者的权重,也无法确定按哪个关键词匹配对应的税码。另外,该方法的泛化能力较差,因为不同公司在对商品名称进行税码匹配时,大都嵌入到专业的领域,比如电力行业,一些专有名词较多,普通人甚至从未听说过,此时就需要重新构造或添加关键词库,费时费力。因此该方法在大型且覆盖面较广的数据集上表现并不好。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江工业大学,未经浙江工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110307421.9/2.html,转载请声明来源钻瓜专利网。