[发明专利]类目错放识别方法和装置无效
申请号: | 201110026733.9 | 申请日: | 2011-01-25 |
公开(公告)号: | CN102609422A | 公开(公告)日: | 2012-07-25 |
发明(设计)人: | 王俞霖 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06Q30/00 |
代理公司: | 隆天国际知识产权代理有限公司 72003 | 代理人: | 张浴月;刘文意 |
地址: | 开曼群岛大开曼*** | 国省代码: | 开曼群岛;KY |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 类目 识别 方法 装置 | ||
技术领域
本申请涉及数据处理领域,尤其涉及一种类目错放识别方法和装置。
背景技术
随着电子商务的发展,开网店和网购在网民中越来越普遍。网上交易系统提供一个网上交易平台,其按照类目对网店的商品进行管理。每个大的类目可以划分成更细的子类目,形成一颗类目树。网购商品不断增多,类目树也不断增长,随之产生一个问题,开网店的卖家会无意或者故意将所卖的商品放在错误的类目下,这被称为类目错放。
类目错放会导致搜索结果不准确,并造成系统存储、计算资源的浪费,而且对用户造成不好的体验。例如,用户通过点击类目树,查看类目A的商品,却看到了类目B的商品,并且也会对卖家造成损失,例如放到错误的类目下的商品可能会被忽略掉。如果能够识别出类目错放的商品,将其改正,则可以消除上述负面影响,提高系统的存储和计算资源的利用率,给买家和卖家带来更好的服务。
对商品类目错放进行识别的一种方法是,通过点击字典进行类目错放识别。其中,点击字典由多条记录组成,每条记录中标明在用户的一个查询的搜索结果中,用户点击到某个类目的概率。通过记录用户的查询和点击行为,能够得到对于一个查询,用户点击的商品的分布。当判断一个商品是否属于类目错放的时候,将该商品的标题进行分词,将标题分词后的每个词当作一个查询,在点击字典里查找该查询的类目分布,如果查找到原来标注的类目,就认为不是类目错放,否则认为类目错放。
用上述的方法,在对海量数据(如千万、上亿级商品数据)进行错放识别时遗漏情况严重,只能识别并召回几万的类目错放的数据。一个原因是点击字典数据量庞大且分布具有稀疏性,大部分类目错放的商品没有被点击字典中的查询覆盖到。另一个原因是,这种方式运算量大,且运算过程复杂,对系统资源要求高,计算时间长。
因此,上述方法不能满足互联网行业快速响应的业务需求。如何提供一种类目错放识别技术,以减少类目错放的遗漏,降低类目错放识别对系统资源要求,提高系统的存储和计算资源的利用率,是本申请所需要解决的技术问题。
发明内容
本申请的目的在于,提供一种类目错放识别方法和装置,以减少类目错放识别的遗漏概率,降低类目错放识别对系统资源要求,节省系统资源,提高运算效率。
为了实现上述目的,本申请的一个方案提供了一种类目错放识别方法,包括如下步骤:获取商品标题中各个词在当前类目下的词频;根据各个词在当前类目下的词频,计算所述商品标题的综合词频;以及将所述综合词频与当前类目的第一阈值相比较,根据比较结果确定是否存在类目错放。
本申请的另一个方案提供了一种类目错放识别方法,包括如下步骤:获取商品标题中各个词在当前类目下的TOP值;词在类目下的TOP值为一个类目下,词频高于该词的所有词的词频之和;根据预先确定的TOP值与相关度值的映射关系,获取各个词的TOP值对应的相关度值,并将各个词的TOP值对应的相关度值相加,获取商品标题在所述当前类目下的综合相关度值;将所述商品标题在当前类目下的综合相关度值与第二阈值相比,根据比较结果确定是否存在类目错放。
本申请的再一个方案提供了一种类目错放识别装置,包括:
词频获取模块,用于获取商品标题中各个词在当前类目下的词频;
综合词频计算模块,用于根据所述词频获取模块获取的各个词在当前类目下的词频,计算所述商品标题的综合词频;以及
类目错放确定模块,用于将所述综合词频计算模块计算得到的综合词频与当前类目的第一阈值相比较,根据比较结果确定是否存在类目错放。
本申请的又一个方案提供了一种类目错放识别装置,包括:
TOP值获取模块,用于获取商品标题中各个词在当前类目下的TOP值;其中,词在当前类目下的TOP值为当前类目下,词频比该词高的所有词的词频之和;
综合相关度值获取模块,用于根据预先确定的TOP值与相关度值的映射关系,获取所述TOP值获取模块得到的各个词的TOP值对应的相关度值,并将各个词的TOP值对应的相关度值相加,获取商品标题在当前类目下的综合相关度值;以及
类目错放确定模块,用于将所述综合相关度值获取模块获取的所述商品标题在当前类目下的综合相关度值与第二阈值相比,根据比较结果确定是否存在类目错放。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110026733.9/2.html,转载请声明来源钻瓜专利网。