[发明专利]基于电商用户行为数据的近义词识别方法有效
申请号: | 201510129041.5 | 申请日: | 2015-03-24 |
公开(公告)号: | CN104657514B | 公开(公告)日: | 2018-05-25 |
发明(设计)人: | 王军;甘骏;彭中正;王磊;张迪;肖琴 | 申请(专利权)人: | 成都知数科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 610000 四*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 近义词 算法模型 训练集数据 词类数据 命名实体 商品描述 行为数据 词组 近义 商用 标注 用户行为数据 数据预处理 结果数据 数量对应 随机选择 有效实体 原始数据 相似度 词库 分词 过滤 输出 返回 | ||
1.基于电商用户行为数据的近义词识别方法,其特征在于,包括以下步骤:
(1)将原始数据进行数据预处理,提取目标商品的商品描述数据和用户行为数据;
(2)随机选择部分商品描述数据分词并进行标注;
(3)返回标注的商品描述数据并作为隐马尔可夫算法模型的训练集数据;
(4)通过训练集数据训练出隐马尔可夫算法模型的参数,建立隐马尔可夫算法模型,并由隐马尔可夫算法识别提取的商品描述数据,得到结果数据有效实体词库;
(5)过滤用户行为数据,从中提取用户浏览行为数据和用户搜索行为数据;
(6)读取用户浏览行为数据和用户搜索行为数据,组成多个相似词类数据集;
(7)调用隐马尔可夫算法模型,识别相似词类数据集中每个近义词类的有效实体和相同词性的实体,组成与相似词类数据集数量对应的近义词组;
(8)整理汇总所有近义词组,计算词与词之间的相似度;
(9)按相似度大小归一化排序,输出近义词识别结果。
2.根据权利要求1所述的基于电商用户行为数据的近义词识别方法,其特征在于,所述步骤(6)的具体方法如下:
读取用户浏览行为数据:
(61)读取用户浏览行为数据,建立用户一商品二部图;
(62)利用经典的基于物品的协同过滤算法,计算商品间的相似度;
(63)提取每个商品对应的相似度最高的5-10个商品对应的词,组成一个相似词类;
读取用户搜索行为数据:
(64)读取用户搜索行为数据,提取用户每次搜索输入的搜索词和点击过的所有商品对应的词,组成一个搜索词类;
(65)提取同一个商品被搜索点击时,用户输入的搜索词,组成一个相似词类。
3.根据权利要求1所述的基于电商用户行为数据的近义词识别方法,其特征在于,所述原始数据包括原始商品描述数据和原始用户行为数据。
4.根据权利要求3所述的基于电商用户行为数据的近义词识别方法,其特征在于,所述步骤(1)的具体方法如下:
(11)读取原始商品描述数据,通过品类映射表,将原始商品的原始品类名转换为标准品类名,并过滤掉无法转换为标准品类名的原始商品,保留下来的即是目标商品的商品描述数据;
(12)读取原始用户行为数据,过滤非目标商品的用户行为数据,得到目标商品的用户行为数据。
5.根据权利要求1所述的基于电商用户行为数据的近义词识别方法,其特征在于,所述步骤(7)中识别相似词类数据集中每个近义词类的有效实体和相同词性的实体的具体方法如下:
(71)调用隐马尔可夫算法模型,输入商品描述数据中的商品标题文字;
(72)通过隐马尔可夫算法识别出商品标题中的不同词性的有效实体词;
(73)统计不同词性的有效实体词被识别出的次数和每次被识别出的词性标记,取出现次数最多的词性标记作为商品标题文字的标记,并输出实体识别结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都知数科技有限公司,未经成都知数科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510129041.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种数据采集系统
- 下一篇:一种资源预勘方案的获取方法和装置