[发明专利]识别品牌词的方法和装置有效
申请号: | 201710398715.0 | 申请日: | 2017-05-31 |
公开(公告)号: | CN107330752B | 公开(公告)日: | 2020-09-29 |
发明(设计)人: | 黄运杜;陈海勇 | 申请(专利权)人: | 北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司 |
主分类号: | G06Q30/06 | 分类号: | G06Q30/06;G06F16/33;G06F16/953 |
代理公司: | 中原信达知识产权代理有限责任公司 11219 | 代理人: | 姜劲;金洁 |
地址: | 100195 北京市海淀区杏石口路6*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 识别 品牌 方法 装置 | ||
本发明提供一种识别品牌词的方法和装置,有助于更准确地从商品信息中识别品牌词,并具有较快的处理效率。本发明的识别品牌词的方法包括:根据已获取的多条商品信息构造多个特征集合;对所述多个特征集合使用预设的映射方式进行映射以得到训练数据,然后使用二分类器对所述训练数据进行训练以得到模型,该模型中包含特征集合中各特征的权重;根据指定的一条商品信息构造待处理数据;使用所述模型确定所述待处理数据中的各个特征的权重,再根据该权重确定各个待识别词在指定的商品信息中是品牌词的概率。
技术领域
本发明涉及计算机技术领域,特别地涉及一种识别品牌词的方法和装置。
背景技术
随着时代的发展,网上购物已经变成人们日常生活中不可或缺的一部分。用户在网购过程中,往往会检索某个品牌下的商品或者型号。然而,用户搜索“小米5斤”的时候,并不是搜索小米品牌,而是搜索吃的小米;搜索“华为手机壳”的时候,也不是搜索华为品牌,而是搜索适用于华为手机的手机壳。商家在使用各种手段,提升自己的搜索排名(SEO)时,也会填写多个品牌词来提升自己的排名。所以,一种准确识别品牌词的方法,对于识别用户搜索意图,提升用户体验;自动规范商家的商品编写规范,智能化平台服务;都具有重大意义。
用户输入的搜索词往往不止一个词,在习惯上,把用户搜索时输入的所有内容一并称作“搜索词”。
现有技术中,针对用户提供的搜索词进行品牌识别时,一般采用词表匹配法,使用品牌词典中的词与搜索词中的词进行匹配,如果匹配成功,则认为搜索词中的该词是一个品牌词。具体步骤如下:
a.获取搜索词;
b.对搜索词分词,得到分词列表;
c.获取品牌词典;
d.遍历分词列表,查找各分词是否存在于品牌词典中,若是则当前分词为品牌词。
上述方法的不足之处主要在于,如果某个词既可以作为品牌,又有其他含义可用于搜索,在采用其他含义作为搜索词时会匹配到该品牌,从而产生错误,例如用户输入“小米5斤”,则会匹配到小米这个品牌词,这显然是错误的。
因此在现有技术中,品牌词的识别仍然不够准确。
发明内容
有鉴于此,本发明实施例提供一种识别品牌词的方法和装置,有助于更准确地从商品信息中识别品牌词,并具有较快的处理效率。
为实现上述目的,根据本发明实施例的一个方面,提供了一种识别品牌词的方法。
本发明实施例的识别品牌词的方法包括:根据已获取的多条商品信息构造多个特征集合;每个特征集合对应一个品牌词,该品牌词出现在商品信息中并且包含在品牌词典中;特征集合中的每个特征包含所述品牌词以及该品牌词所在的商品信息中的另一个或多个词;若所述品牌词在其所在商品信息中是作为该商品的品牌,则该品牌词对应的特征的标签为正标签,否则为负标签;对所述多个特征集合使用预设的映射方式进行映射以得到训练数据,然后使用二分类器对所述训练数据进行训练以得到模型,该模型中包含特征集合中各特征的权重;根据指定的一条商品信息构造待处理数据;构造的待处理数据中,每个属于所述品牌词典的词作为待识别词,每个待识别词对应一个特征集合,该特征集合中的每个特征包含该待识别词以及该指定的商品信息中的另一个词;使用所述模型确定所述待处理数据中的各个特征的权重,再根据该权重确定各个待识别词在指定的商品信息中是品牌词的概率。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司,未经北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710398715.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种LED摇头轨道灯
- 下一篇:一种基于光学原理的激光照明防震装置