[发明专利]商品名称的归集方法和装置有效
申请号: | 201811126406.9 | 申请日: | 2018-09-26 |
公开(公告)号: | CN110968685B | 公开(公告)日: | 2023-06-20 |
发明(设计)人: | 夏超 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/216;G06F40/232;G06F40/289;G06F40/247 |
代理公司: | 北京太合九思知识产权代理有限公司 11610 | 代理人: | 许红英 |
地址: | 英属开曼群岛大开*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 商品名称 方法 装置 | ||
本发明实施例提供一种商品名称的归集方法和装置。根据商品描述的相似度,对商品描述进行领域归类;对每个领域中的每个商品描述进行商品词的归集处理,确定每个能归集处理的商品描述的商品词;基于能归集处理的商品描述中的商品词,标注不能归集处理的商品描述中的商品词序列,确定每个不能归集处理的商品描述中的最大概率商品词。本发明自动快速构建匹配准确率高的商品词库可以克服现有技术中人力构建知识库的时耗长成本高的问题。
技术领域
本发明涉及大数据处理技术领域,尤其涉及一种商品名称的归集方法和装置。
背景技术
在各种基于企业进销商品分析的业务中,如果由于相同的商品而不同的描述是会带来很大的偏差的,不仅影响分析效率,并且更加会影响效果,因此需要对商品名称进行归集,将不同描述的相同商品归集到一起,并且使用一个最简洁的名称来代替。比如“外科纱布敷料,34cm*40cm*1000袋”既包括商品名,又包括大小或数量,需要归集标准的商品名纱布。
但是,随著商品经济的发展,商品种类越来越多,商品描述也是各种各样,层出不穷,迫切需要一种成本低且商品名称归集准确率高的方法,为商品归类、进销不符、虚开识别等业务分析提供重要的数据基础。
发明内容
为了解决上述问题,本发明提供一种商品名称的归集方法和装置,保证商品归集准确率高的同时,实现低成本和耗时短。
本发明实施例提供一种商品名称的归集方法,包括:
根据商品描述的相似度,对商品描述进行领域归类;
对每个领域中的每个商品描述进行商品词的归集处理,确定每个能归集处理的商品描述的商品词。
可选地,所述根据商品描述的相似度,对商品描述进行领域归类包括:
计算各个商品描述之间的相似度;
根据各个商品描述之间的相似度,构建商品相似度的网络结构,所述网络结构中的各个节点表示各自对应的商品描述,各个节点之间的边表示对应的商品描述之间的相似度;
计算商品相似度的网络结构的模块度;
根据所述模块度对所述商品相似度的网络结构划分多个子网络,每个子网络表示对应领域的商品描述。
可选地,计算各个商品描述之间的相似度包括:
将每个商品描述转换为对应的词向量;
采用神经词袋模型对每两个词向量间求平均,计算每两个商品描述间的哈希值,得到每两个商品描述之间的相似度。
可选地,对每个领域中的每个商品描述进行商品词的归集处理,确定每个能归集处理的商品描述的商品词,包括:
根据每个领域中的商品描述的出现频次,取前N个出现频次高的商品描述作为高频次的商品描述,其余的作为低频次的商品描述;
将第一高频次的商品描述加入到所述领域的商品词库中;
从第二高频次的商品描述开始直至第N高频次的商品描述,依频次高低顺序,从高到低,分别对各频次的商品描述进行分词处理,计算切分后的词与所述领域的商品词库中的商品词的相似度,若存在相似度大于等于m的商品词,则将所述商品词作为对应频次的商品描述归集的商品名称;
若相似度小于m,则将对应高频次的商品描述作为商品词加入到所述领域的商品词库中,并将该相似度小于m的对应频次的商品描述确定为不能归集处理的商品描述。
可选地,对每个领域中的每个商品描述进行商品词的归集处理,确定每个能归集处理的商品描述的商品词,还包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811126406.9/2.html,转载请声明来源钻瓜专利网。