[发明专利]一种基于大数据的电影语义个性化标签优化方法有效
申请号: | 201710757109.3 | 申请日: | 2017-08-29 |
公开(公告)号: | CN107515934B | 公开(公告)日: | 2020-12-15 |
发明(设计)人: | 阳柯;刘楚雄;唐军 | 申请(专利权)人: | 四川长虹电器股份有限公司 |
主分类号: | G06F16/955 | 分类号: | G06F16/955;G06F16/48;G06K9/62 |
代理公司: | 四川省成都市天策商标专利事务所 51213 | 代理人: | 秦华云;吴瑞芳 |
地址: | 621000 四*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于大数据的电影语义个性化标签优化方法,通过挖掘电影评论数据,获取异化的个性化电影标签;同时通过神经网络模型向量化得到文本、词汇,以电影简介文本的相似度与标签词汇的相似度,结合优化前后自定义标签的偏差,建立机器学习模型,并通过个性化标签初始化机器学习模型。本发明实现了电影已有自定义标签的优化,实现合并冗余标签,纠正错误标签、补全缺失标签以及补全个性化标签;对电影资源进行科学、有效的分类和描述,提供电影信息检索的基础,解决了人工电影标签所引发的一系列问题。 | ||
搜索关键词: | 一种 基于 数据 电影 语义 个性化 标签 优化 方法 | ||
【主权项】:
一种基于大数据的电影语义个性化标签优化方法,其特征在于:其方法步骤如下:A、收集电影i和电影j的评论信息数据,所述评论信息数据包括电影简介、电影长评和电影短评,采用开源中文分词工具对评论信息数据进行分词处理;建立停用词数据库,通过停用词数据库去除分词后的评论信息数据中的停用词得到有效评论数据;B、计算词频(TF):词频(TF)=某个词在某一评论文章中经过步骤A处理后的有效评论数据出现的次数,词频(TF)采用计算方式计算:词频(TF)=某个词在某一评论文章中经过步骤A处理后的有效评论数据出现的次数/该有效评论数据中词数;C、计算文档集频率(SF):文档集频率(SF)=某个词在所有评论文档中出现过的文档数目/总评论文档数;D、生成个性化标签:个性化标签=词频(TF)与计算文档集频率(SF)的乘积,并按照权重值降序排列各标签;E、标签异化:生成的个性化标签中,通过词向量模型计算出个性化词语之间的距离:Ki,j=cos(lic,ljc)]]>其中,分别表示电影i、电影j的个性化标签,如果距离小于实现设定的阈值ζ=0.28,那么说明这两个个性化标签相似,则将两个个性化标签的权重值叠加,否则,保留两个个性化标签;F、提取个性化标签:步骤D的个性化标签经过步骤F标签异化合并之后的个性化标签,按照权重值降序排列,选取前N个标签作为该电影的个性化标签L0。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川长虹电器股份有限公司,未经四川长虹电器股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710757109.3/,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置