[发明专利]一种基于标签语义规范化推荐方法有效
申请号: | 201610972494.9 | 申请日: | 2016-11-04 |
公开(公告)号: | CN106599037B | 公开(公告)日: | 2021-01-22 |
发明(设计)人: | 叶婷;曹杰;姚瑞波;崔莹;伍之昂;申冬琴 | 申请(专利权)人: | 焦点科技股份有限公司;南京财经大学 |
主分类号: | G06F16/9535 | 分类号: | G06F16/9535;G06F16/955 |
代理公司: | 北京亿腾知识产权代理事务所(普通合伙) 11309 | 代理人: | 陈霁 |
地址: | 210061 江苏省南京市*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 标签 语义 规范化 推荐 方法 | ||
本发明涉及一种基于标签语义规范化推荐方法,包括:对用户自定义的标签进行预处理,获得预处理后的标签,根据计算得到所述标签语义相似度;根据预处理后的标签获得标签资源矩阵,再计算得到标签资源共现相似度;根据标签语义相似度和所述标签资源共现相似度计算得到线性融合相似度,将线性融合相似度进行聚类操作,获得用户语义规范化后的标签数据,结合所述用户语义规范化后的标签数据进行协同过滤推荐。本发明可以将之前的标签系统中大量的冗余或者语义表达不准确的标签经过规范化标签使规范化后的标签语义表达更明确;在推荐系统中可以提高推荐质量即正确率和效率即减少推荐时间。
技术领域
本发明涉及个性化推荐方法领域,具体涉及一种基于标签构建用户兴趣模型的个性化推荐技术。
背景技术
互联网的飞速发展极大的改变了人们搜寻信息、共享知识的途径,同时改变了人与人之间的沟通互动方式。随着信息的不断增长,用户需要耗费大量的时间和精力从海量信息中查找所需要的资源,这种现象被称为信息过载问题。于是推荐系统孕育而生。推荐系统是一种根据用户的偏好和一些历史数据,智能地从海量信息资源中筛选出少量体现用户偏好的资源推荐给用户的技术,从而更好地解决了信息过载问题。然而推荐系统自身也存在一些弊端,主要表现为系统的数据稀疏性、冷启动问题、稳定性问题等,这些缺陷使推荐系统很难根据用户的历史行为作出正确的推荐。
目前,利用标签的特性进行个性化推荐系统的设计,使推荐系统的研究进入了一个新的阶段。因为标签系统中标签由用户自由选择定义,不仅描述资源的特征属性,还可以反映出用户的兴趣和认知偏好。然而随着标签应用越来越广泛,标签中出现的弊端也越来越明显,由于标签的自主性表达概念模糊,不同用户认知也存在差异,这导致其表达的语义不准确,同时用户可能在输入标签时不够严谨,导致大量噪声标签的存在。
因此,本发明针对推荐系统自身的弊端,弊端具体表现包括系统的数据稀疏性、冷启动问题和稳定性问题等,这些弊端使推荐系统很难根据用户的历史行为作出正确的推荐以及针对目前互联网信息过载以及社会标签系统中标签的繁杂零碎性且不易产生语义关联等问题,提供了一种基于标签语义规范化的推荐方法。
发明内容
本发明的目的是解决推荐系统自身的弊端,弊端具体表现包括系统的数据稀疏性、冷启动问题和稳定性问题等,这些弊端使推荐系统很难根据用户的历史行为作出正确的推荐以及针对目前互联网信息过载以及社会标签系统中标签的繁杂零碎性且不易产生语义关联等问题,
为实现上述目的,本发明提供了一种基于标签语义规范化的推荐方法,利用标签之间的语义联系,并用语义规范的标签代替用户自定义的随意标签,构建用户的兴趣模型再基于协同过滤方法对用户产生推荐,从而提升推荐的质量。
包括以下步骤:对用户自定义的标签进行预处理,获得预处理后的标签;基于预处理后的标签利用Word2Vec训练模型获得标签中的所有词的词向量,根据词向量计算得到所述标签语义相似度;根据预处理后的标签获得标签资源矩阵,以及利用标签资源矩阵计算得到标签资源共现相似度;根据标签语义相似度和标签资源共现相似度计算得到线性融合相似度,将线性融合相似度进行聚类操作,获得用户语义规范化后的标签数据,结合所述用户语义规范化后的标签数据进行协同过滤推荐。
其中,将线性融合相似度进行聚类操作步骤,包括:根据线性融合相似度构建标签融合度矩阵,依据标签融合度矩阵获得标签的预设值K个类簇;根据标签的预设值K个类簇进行聚类收敛条件的判断,若满足其中任意一项条件即可获得新的用户规范化标签。
根据标签的预设值K个类簇进行聚类收敛条件的判断,若不满足其中任意一项条件即执行所述线性融合相似度构建标签融合度矩阵的步骤。聚类收敛条件包括:没有数据点被重新分配给不同的类,或者新的聚类中心与原类聚中心相同。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于焦点科技股份有限公司;南京财经大学,未经焦点科技股份有限公司;南京财经大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610972494.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:基于服务器集群的并行实时数据库
- 下一篇:面向电力应用的可视化统计发布系统