[发明专利]识别品牌词的方法和装置有效
申请号: | 201710398715.0 | 申请日: | 2017-05-31 |
公开(公告)号: | CN107330752B | 公开(公告)日: | 2020-09-29 |
发明(设计)人: | 黄运杜;陈海勇 | 申请(专利权)人: | 北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司 |
主分类号: | G06Q30/06 | 分类号: | G06Q30/06;G06F16/33;G06F16/953 |
代理公司: | 中原信达知识产权代理有限责任公司 11219 | 代理人: | 姜劲;金洁 |
地址: | 100195 北京市海淀区杏石口路6*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 识别 品牌 方法 装置 | ||
1.一种识别品牌词的方法,其特征在于,包括:
根据已获取的多条商品信息构造多个特征集合;每个特征集合对应一个品牌词,该品牌词出现在商品信息中并且包含在品牌词典中;特征集合中的每个特征包含所述品牌词以及该品牌词所在的商品信息中的另一个或多个词;若所述品牌词在其所在商品信息中是作为该商品的品牌,则该品牌词对应的特征的标签为正标签,否则为负标签;
对所述多个特征集合进行映射以得到训练数据,然后使用二分类器对所述训练数据进行训练以得到模型,该模型中包含特征集合中各特征的权重;
根据指定的一条商品信息构造待处理数据;待处理数据中,每个属于所述品牌词典的词作为待识别词,每个待识别词对应一个特征集合,该特征集合中的每个特征包含该待识别词以及该指定的商品信息中的另一个词;
使用所述模型确定所述待处理数据中的各个特征的权重,再根据该权重确定各个待识别词在指定的商品信息中是品牌词的概率。
2.根据权利要求1所述的方法,其特征在于,
所述商品信息是由电子商务的商家在展示商品的页面上提供;
并且根据已获取的多条商品信息构造多个特征集合的步骤包括对获取的多条商品信息中的每条商品标题执行如下步骤:
读取对商品标题进行分词后得到的多个词;
对所述多个词中的各个词分别进行判断,若词属于品牌词典则对该词添加第一类标签,否则对该词添加第二类标签;
对具有第一类标签的各个词分别进行判断,若词与所述商品信息中的品牌相一致,则对该词添加正标签,否则对该词添加负标签;
对于具有第一类标签的一个或多个词中的各个词,分别执行如下步骤:将具有第一类标签的一个词与从商品标题中选择的其他多个词中的各个词分别进行组合以得到多个所述特征。
3.根据权利要求1所述的方法,其特征在于,
所述商品信息是由电子商务的用户在电子商务上进行商品搜索时形成的浏览日志中的搜索词和搜索后的品牌选择记录;
并且根据已获取的多条商品信息构造多个特征集合的步骤包括针对所述浏览日志中的每条搜索词执行如下的步骤:
读取对搜索词进行分词后得到的多个词;
对所述多个词中的各个词分别进行判断,若词属于品牌词典则对该词添加第一类标签,否则对该词添加第二类标签;
对具有第一类标签的各个词分别进行判断,若词是该搜索词对应的品牌,则对该词添加正标签,否则对该词添加负标签;
对于具有第一类标签的一个或多个词中的各个词,分别执行如下步骤:将具有第一类标签的一个词与从搜索词中选择的其他多个词中的各个词分别进行组合以得到多个所述特征。
4.根据权利要求3所述的方法,其特征在于,所述对具有第一类标签的各个词分别进行判断,若词是该搜索词对应的品牌,则对该词添加正标签,否则对该词添加负标签的步骤之前,还包括:
根据所述浏览日志中的搜索词和搜索后的品牌选择记录,统计各搜索词在被搜索后对应的被选择品牌的分布;
将分布概率达到设定值的品牌作为该搜索词对应的品牌。
5.根据权利要求1所述的方法,其特征在于,所述使用二分类器对所述训练数据进行训练的步骤包括:先选择L1正则函数对所述训练数据进行训练,对训练后数据再选择L2正则函数进行训练。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司,未经北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710398715.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种LED摇头轨道灯
- 下一篇:一种基于光学原理的激光照明防震装置