[发明专利]一种基于大数据的电影语义个性化标签优化方法有效

专利信息
申请号: 201710757109.3 申请日: 2017-08-29
公开(公告)号: CN107515934B 公开(公告)日: 2020-12-15
发明(设计)人: 阳柯;刘楚雄;唐军 申请(专利权)人: 四川长虹电器股份有限公司
主分类号: G06F16/955 分类号: G06F16/955;G06F16/48;G06K9/62
代理公司: 四川省成都市天策商标专利事务所 51213 代理人: 秦华云;吴瑞芳
地址: 621000 四*** 国省代码: 四川;51
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种基于大数据的电影语义个性化标签优化方法,通过挖掘电影评论数据,获取异化的个性化电影标签;同时通过神经网络模型向量化得到文本、词汇,以电影简介文本的相似度与标签词汇的相似度,结合优化前后自定义标签的偏差,建立机器学习模型,并通过个性化标签初始化机器学习模型。本发明实现了电影已有自定义标签的优化,实现合并冗余标签,纠正错误标签、补全缺失标签以及补全个性化标签;对电影资源进行科学、有效的分类和描述,提供电影信息检索的基础,解决了人工电影标签所引发的一系列问题。
搜索关键词: 一种 基于 数据 电影 语义 个性化 标签 优化 方法
【主权项】:
一种基于大数据的电影语义个性化标签优化方法,其特征在于:其方法步骤如下:A、收集电影i和电影j的评论信息数据,所述评论信息数据包括电影简介、电影长评和电影短评,采用开源中文分词工具对评论信息数据进行分词处理;建立停用词数据库,通过停用词数据库去除分词后的评论信息数据中的停用词得到有效评论数据;B、计算词频(TF):词频(TF)=某个词在某一评论文章中经过步骤A处理后的有效评论数据出现的次数,词频(TF)采用计算方式计算:词频(TF)=某个词在某一评论文章中经过步骤A处理后的有效评论数据出现的次数/该有效评论数据中词数;C、计算文档集频率(SF):文档集频率(SF)=某个词在所有评论文档中出现过的文档数目/总评论文档数;D、生成个性化标签:个性化标签=词频(TF)与计算文档集频率(SF)的乘积,并按照权重值降序排列各标签;E、标签异化:生成的个性化标签中,通过词向量模型计算出个性化词语之间的距离:Ki,j=cos(lic,ljc)]]>其中,分别表示电影i、电影j的个性化标签,如果距离小于实现设定的阈值ζ=0.28,那么说明这两个个性化标签相似,则将两个个性化标签的权重值叠加,否则,保留两个个性化标签;F、提取个性化标签:步骤D的个性化标签经过步骤F标签异化合并之后的个性化标签,按照权重值降序排列,选取前N个标签作为该电影的个性化标签L0。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川长虹电器股份有限公司,未经四川长虹电器股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201710757109.3/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top