[发明专利]一种基于大数据的电影语义个性化标签优化方法有效
申请号: | 201710757109.3 | 申请日: | 2017-08-29 |
公开(公告)号: | CN107515934B | 公开(公告)日: | 2020-12-15 |
发明(设计)人: | 阳柯;刘楚雄;唐军 | 申请(专利权)人: | 四川长虹电器股份有限公司 |
主分类号: | G06F16/955 | 分类号: | G06F16/955;G06F16/48;G06K9/62 |
代理公司: | 四川省成都市天策商标专利事务所 51213 | 代理人: | 秦华云;吴瑞芳 |
地址: | 621000 四*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 数据 电影 语义 个性化 标签 优化 方法 | ||
本发明公开了一种基于大数据的电影语义个性化标签优化方法,通过挖掘电影评论数据,获取异化的个性化电影标签;同时通过神经网络模型向量化得到文本、词汇,以电影简介文本的相似度与标签词汇的相似度,结合优化前后自定义标签的偏差,建立机器学习模型,并通过个性化标签初始化机器学习模型。本发明实现了电影已有自定义标签的优化,实现合并冗余标签,纠正错误标签、补全缺失标签以及补全个性化标签;对电影资源进行科学、有效的分类和描述,提供电影信息检索的基础,解决了人工电影标签所引发的一系列问题。
技术领域
本发明涉及大数据分析技术领域,尤其涉及一种基于大数据的电影语义个性化标签优化方法。
背景技术
在影视行业的发展与人们精神需求的双重因素刺激之下,电影种类与数目日益增多,因此对电影的描述变得越来越重要。同时,随着互联网的迅猛发展,越来越多的共享信息出现在各类网站之上,就电影而言,有豆瓣,腾讯等网站。这些网站允许用户评论以及为不同电影定义类别标签,不但作为一种信息分享,最重要的是将优化在海量视频库中搜索特定视频的过程。但随着互联网数据急剧增加随之产生一些问题,主要如下:
首先,标签本身的问题。因为这些网站的电影标签来自用户自定义,任何人在任何情况下都可以对任何资源定义标签,所以这些标签具有随意性,不严谨性,容易带来矛盾、混乱等问题,缺乏正确以及合理的标签将会使用户迷失在冗余繁杂的检索结果之中。
其次,没有个性化标签。目前电影的标签集中在通用标签集上,特定电影缺乏独特的标签,不能精准描述电影,同时这将导致无法通过独特的标签搜索特定电影。
最后,数据资源的浪费问题,在已有的标签优化方法中,极少数方法考虑到电影简介,同时都忽略了互联网上大量的评论资源,这些资源同样也是对电影的一种描述,这样会导致内容资源的严重浪费。
发明内容
针对现有技术存在的不足之处,本发明的目的在于提供一种基于大数据的电影语义个性化标签优化方法,通过语义的方法,结合电影评论数据,提出丰富电影个性化标签以及用户自定义标签优化方法。首先,有效利用电影评论数据,并挖掘电影评论数据,从电影内容、风格等多角度提炼电影个性化标签,不但丰富了电影标签,同时实现电影标签的个性化,有助于用户实现精准查找。其次,从电影文本语义角度出发,通过理解电影简介语义实现优化标签,通过电影内容语义相似度与标签本身的语义相似度的关联信息,精准筛选电影标签,方便用户在海量数据信息中搜索目标电影,实现简化电影需查找过程。
本发明的目的通过下述技术方案实现:
一种基于大数据的电影语义个性化标签优化方法,其方法步骤如下:
A、收集电影i和电影j的评论信息数据,所述评论信息数据包括电影简介、电影长评和电影短评,采用开源中文分词工具对评论信息数据进行分词处理;建立停用词数据库,通过停用词数据库去除分词后的评论信息数据中的停用词得到有效评论数据;
B、计算词频(TF):词频(TF)=某个词在某一评论文章中经过步骤A处理后的有效评论数据出现的次数,词频(TF)采用计算方式计算:
词频(TF)=某个词在某一评论文章中经过步骤A处理后的有效评论数据出现的次数/该有效评论数据中词数;
C、计算文档集频率(SF):文档集频率(SF)=某个词在所有评论文档中出现过的文档数目/总评论文档数;
D、生成个性化标签:个性化标签=词频(TF)与计算文档集频率(SF)的乘积,并按照权重值降序排列各标签;
E、标签异化:生成的个性化标签中,通过词向量模型计算出个性化词语之间的距离:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川长虹电器股份有限公司,未经四川长虹电器股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710757109.3/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置