[发明专利]一种基于社会级词向量进行税收编码末级分类的方法在审
申请号: | 202011526181.3 | 申请日: | 2020-12-22 |
公开(公告)号: | CN112529676A | 公开(公告)日: | 2021-03-19 |
发明(设计)人: | 尹明君;薛鑫 | 申请(专利权)人: | 畅捷通信息技术股份有限公司 |
主分类号: | G06Q40/00 | 分类号: | G06Q40/00;G06F40/242;G06F40/284;G06F40/30;G06F16/35;G06F16/36 |
代理公司: | 北京智乾知识产权代理事务所(普通合伙) 11552 | 代理人: | 邓大为 |
地址: | 100094 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 社会 向量 进行 税收 编码 分类 方法 | ||
本发明提供了一种基于社会级词向量进行税收编码末级分类的方法,包括:第一步骤:选取社会级词向量模型;第二步骤:利用选取的社会级词向量模型生成分词专用词典;第三步骤:利用税收分类编码末级分类生成末级特征库;第四步骤:利用末级特征库计算每个商品的分数。
技术领域
本发明涉及税收领域,具体涉及一种基于社会级词向量进行税收编码末级分类的方法。
背景技术
每种商品都有对应的税收分类编码,但是税收分类编码分类多达3000多种,如何从3000多种分类编码中确定某一商品的正确税收分类编码是一件非常困难的事情。单靠人工选择,费时费力的同时,准确率也不高。因此,商品匹配税收分类编码这个问题需要有效解决。
发明内容
本发明所要解决的技术问题是针对现有技术中存在上述缺陷,提供一种能够利用社会级词向量解决少标注多分类问题的方法。
根据本发明,提供了一种基于社会级词向量进行税收编码末级分类的方法,包括:
第一步骤:选取社会级词向量模型;
第二步骤:利用选取的社会级词向量模型生成分词专用词典;
第三步骤:利用税收分类编码末级分类生成末级特征库;
第四步骤:利用末级特征库计算每个商品的分数。
优选地,所述的基于社会级词向量进行税收编码末级分类的方法还包括第五步骤:对计算的分数进行优化;其中,相对于在类别里的出现的次数少的特征,使得在类别里的出现的次数多的特征分数减小。
优选地,选取百度词向量模型作为社会级词向量模型。
优选地,选取腾讯词向量模型作为社会级词向量模型。
优选地,在第二步骤中,对于商品库中的商品进行分词,根据社会级词向量模型选取有词向量的词,并且依据选取的有词向量的各词出现的频次进行依次排序,排序后的序列作为分词专用词典。
优选地,在第三步骤中,针对税收分类编码的末级分类提取特征,并利用分词专用词典对提取的特征进行分词后赋予权重,生成末级特征库。
优选地,在第四步骤中,针对多个商品分别与末级特征库中的末级特征分别进行笛卡尔积的相似度计算,以得到每个商品的分数。
优选地,分词专用词典中的词语所属分类有可能不同于缺少分词专用词典进行分词的分类结果。
本发明的方法利用社会级词向量进行语义相似度计算,解决少标注多分类问题,并且提高准确率;利用该方法,选取评分最大的前五个税收分类作为分类结果,经测试其准确率可以高达90%。
附图说明
结合附图,并通过参考下面的详细描述,将会更容易地对本发明有更完整的理解并且更容易地理解其伴随的优点和特征,其中:
图1示意性地示出了根据本发明优选实施例的基于社会级词向量进行税收编码末级分类的方法的示意流程图。
图2示意性地示出了根据本发明优选实施例的基于社会级词向量进行税收编码末级分类的方法的计算示意。
需要说明的是,附图用于说明本发明,而非限制本发明。注意,表示结构的附图可能并非按比例绘制。并且,附图中,相同或者类似的元件标有相同或者类似的标号。
具体实施方式
为了使本发明的内容更加清楚和易懂,下面结合具体实施例和附图对本发明的内容进行详细描述。
本申请的发明人发现,税收分类编码问题可归结为一种少标注多分类的问题,因此解决了少标注多分类问题的同时,商品匹配税收分类编码问题自然就解决了。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于畅捷通信息技术股份有限公司,未经畅捷通信息技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011526181.3/2.html,转载请声明来源钻瓜专利网。