[发明专利]一种基于大数据的电影语义个性化标签优化方法有效

申请号：	201710757109.3	申请日：	2017-08-29
公开（公告）号：	CN107515934B	公开（公告）日：	2020-12-15
发明（设计）人：	阳柯;刘楚雄;唐军	申请（专利权）人：	四川长虹电器股份有限公司
主分类号：	G06F16/955	分类号：	G06F16/955;G06F16/48;G06K9/62
代理公司：	四川省成都市天策商标专利事务所 51213	代理人：	秦华云;吴瑞芳
地址：	621000 四***	国省代码：	四川;51
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了一种基于大数据的电影语义个性化标签优化方法，通过挖掘电影评论数据，获取异化的个性化电影标签；同时通过神经网络模型向量化得到文本、词汇，以电影简介文本的相似度与标签词汇的相似度，结合优化前后自定义标签的偏差，建立机器学习模型，并通过个性化标签初始化机器学习模型。本发明实现了电影已有自定义标签的优化，实现合并冗余标签，纠正错误标签、补全缺失标签以及补全个性化标签；对电影资源进行科学、有效的分类和描述，提供电影信息检索的基础，解决了人工电影标签所引发的一系列问题。
搜索关键词：	一种基于数据电影语义个性化标签优化方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

一种基于大数据的电影语义个性化标签优化方法，其特征在于：其方法步骤如下：A、收集电影i和电影j的评论信息数据，所述评论信息数据包括电影简介、电影长评和电影短评，采用开源中文分词工具对评论信息数据进行分词处理；建立停用词数据库，通过停用词数据库去除分词后的评论信息数据中的停用词得到有效评论数据；B、计算词频(TF)：词频(TF)＝某个词在某一评论文章中经过步骤A处理后的有效评论数据出现的次数，词频(TF)采用计算方式计算：词频(TF)＝某个词在某一评论文章中经过步骤A处理后的有效评论数据出现的次数/该有效评论数据中词数；C、计算文档集频率(SF)：文档集频率(SF)＝某个词在所有评论文档中出现过的文档数目/总评论文档数；D、生成个性化标签：个性化标签＝词频(TF)与计算文档集频率(SF)的乘积，并按照权重值降序排列各标签；E、标签异化：生成的个性化标签中，通过词向量模型计算出个性化词语之间的距离：Ki,j=cos(lic,ljc)]]>其中，分别表示电影i、电影j的个性化标签，如果距离小于实现设定的阈值ζ＝0.28，那么说明这两个个性化标签相似，则将两个个性化标签的权重值叠加，否则，保留两个个性化标签；F、提取个性化标签：步骤D的个性化标签经过步骤F标签异化合并之后的个性化标签，按照权重值降序排列，选取前N个标签作为该电影的个性化标签L0。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于四川长虹电器股份有限公司，未经四川长虹电器股份有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201710757109.3/，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于大数据的电影语义个性化标签优化方法有效

专利文献下载