[发明专利]基于电商用户行为数据的近义词识别方法有效
申请号: | 201510129041.5 | 申请日: | 2015-03-24 |
公开(公告)号: | CN104657514B | 公开(公告)日: | 2018-05-25 |
发明(设计)人: | 王军;甘骏;彭中正;王磊;张迪;肖琴 | 申请(专利权)人: | 成都知数科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 610000 四*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于电商用户行为数据的近义词识别方法,解决了现有技术中如何识别商品标题关键词的命名实体和对命名实体的近义词识别的问题。该识别方法包括:(1)将原始数据进行数据预处理;(2)随机选择部分商品描述数据分词并进行标注;(3)返回标注的商品描述数据并作为隐马尔可夫算法模型的训练集数据;(4)通过训练集数据训练出隐马尔可夫算法模型的参数,建立隐马尔可夫算法模型,得到结果数据有效实体词库;(5)过滤用户行为数据;(6)组成多个相似词类数据集;(7)组成与相似词类数据集数量对应的近义词组;(8)整理汇总所有近义词组,计算词与词之间的相似度;(9)输出近义词识别结果。 | ||
搜索关键词: | 近义词 算法模型 训练集数据 词类数据 命名实体 商品描述 行为数据 词组 近义 商用 标注 用户行为数据 数据预处理 结果数据 数量对应 随机选择 有效实体 原始数据 相似度 词库 分词 过滤 输出 返回 | ||
【主权项】:
1.基于电商用户行为数据的近义词识别方法,其特征在于,包括以下步骤:(1)将原始数据进行数据预处理,提取目标商品的商品描述数据和用户行为数据;(2)随机选择部分商品描述数据分词并进行标注;(3)返回标注的商品描述数据并作为隐马尔可夫算法模型的训练集数据;(4)通过训练集数据训练出隐马尔可夫算法模型的参数,建立隐马尔可夫算法模型,并由隐马尔可夫算法识别提取的商品描述数据,得到结果数据有效实体词库;(5)过滤用户行为数据,从中提取用户浏览行为数据和用户搜索行为数据;(6)读取用户浏览行为数据和用户搜索行为数据,组成多个相似词类数据集;(7)调用隐马尔可夫算法模型,识别相似词类数据集中每个近义词类的有效实体和相同词性的实体,组成与相似词类数据集数量对应的近义词组;(8)整理汇总所有近义词组,计算词与词之间的相似度;(9)按相似度大小归一化排序,输出近义词识别结果。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都知数科技有限公司,未经成都知数科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201510129041.5/,转载请声明来源钻瓜专利网。
- 上一篇:一种数据采集系统
- 下一篇:一种资源预勘方案的获取方法和装置