[发明专利]识别商品所属类目的方法和装置有效

专利信息
申请号: 201611050920.X 申请日: 2011-01-25
公开(公告)号: CN107122980B 公开(公告)日: 2021-08-27
发明(设计)人: 王俞霖 申请(专利权)人: 阿里巴巴集团控股有限公司
主分类号: G06Q30/00 分类号: G06Q30/00;G06F40/216
代理公司: 北京国昊天诚知识产权代理有限公司 11315 代理人: 黄熊
地址: 英属开曼群岛大开*** 国省代码: 暂无信息
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 识别 商品 所属 类目 方法 装置
【说明书】:

本申请提供类目错放识别方法和装置。所提供的一种类目错放识别方法包括步骤:获取商品标题中各个词在当前类目下的词频;根据各个词在当前类目下的词频,计算所述商品标题的综合词频;以及将所述综合词频与当前类目的第一阈值相比较,根据比较结果确定是否存在类目错放。利用本申请,能够准确识别出类目错放,减少类目错放识别的遗漏概率,所需的系统资源要求低,从而可以节省系统资源,提高运算效率。

本申请是发明名称为“类目错放识别方法和装置”、申请号为201110026733.9、申请日为2011年1月25日的中国申请的分案申请。

技术领域

本申请涉及数据处理领域,尤其涉及一种识别商品所属类目的方法和装置。

背景技术

随着电子商务的发展,开网店和网购在网民中越来越普遍。网上交易系统提供一个网上交易平台,其按照类目对网店的商品进行管理。每个大的类目可以划分成更细的子类目,形成一颗类目树。网购商品不断增多,类目树也不断增长,随之产生一个问题,开网店的卖家会无意或者故意将所卖的商品放在错误的类目下,这被称为类目错放。

类目错放会导致搜索结果不准确,并造成系统存储、计算资源的浪费,而且对用户造成不好的体验。例如,用户通过点击类目树,查看类目A的商品,却看到了类目B的商品,并且也会对卖家造成损失,例如放到错误的类目下的商品可能会被忽略掉。如果能够识别出类目错放的商品,将其改正,则可以消除上述负面影响,提高系统的存储和计算资源的利用率,给买家和卖家带来更好的服务。

对商品类目错放进行识别的一种方法是,通过点击字典进行类目错放识别。其中,点击字典由多条记录组成,每条记录中标明在用户的一个查询的搜索结果中,用户点击到某个类目的概率。通过记录用户的查询和点击行为,能够得到对于一个查询,用户点击的商品的分布。当判断一个商品是否属于类目错放的时候,将该商品的标题进行分词,将标题分词后的每个词当作一个查询,在点击字典里查找该查询的类目分布,如果查找到原来标注的类目,就认为不是类目错放,否则认为类目错放。

用上述的方法,在对海量数据(如千万、上亿级商品数据)进行错放识别时遗漏情况严重,只能识别并召回几万的类目错放的数据。一个原因是点击字典数据量庞大且分布具有稀疏性,大部分类目错放的商品没有被点击字典中的查询覆盖到。另一个原因是,这种方式运算量大,且运算过程复杂,对系统资源要求高,计算时间长。

因此,上述方法不能满足互联网行业快速响应的业务需求。如何提供一种类目错放识别技术,以减少类目错放的遗漏,降低类目错放识别对系统资源要求,提高系统的存储和计算资源的利用率,是本申请所需要解决的技术问题。

发明内容

本申请的目的在于,提供一种识别商品所属类目的方法和装置,以减少类目错放识别的遗漏概率,降低类目错放识别对系统资源要求,节省系统资源,提高运算效率。

为了实现上述目的,本申请的一个方案提供了一种识别商品所属类目的方法,包括如下步骤:

将商品标题分成词的集合,获取商品标题中各个词在当前类目下的词频,所述词频为词在类目下的概率值;

根据各个词在当前类目下的词频,确定商品标题与当前类目的匹配程度;

根据所述商品标题与当前类目的匹配程度识别所述商品是否属于所述当前类目。

本申请的再一个方案提供了一种识别商品所属类目的装置,包括:

词频获取模块,用于将商品标题分成词的集合,获取商品标题中各个词在当前类目下的词频,所述词频为词在类目下的概率值;

类目识别模块,用于根据各个词在当前类目下的词频,确定商品标题与当前类目的匹配程度,根据所述商品标题与当前类目的匹配程度识别所述商品是否属于所述当前类目。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201611050920.X/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top