[发明专利]影视作品评分预测模型的构建方法及评分预测方法在审
申请号: | 202110948252.7 | 申请日: | 2021-08-18 |
公开(公告)号: | CN113705873A | 公开(公告)日: | 2021-11-26 |
发明(设计)人: | 张树武;刘杰;王艺颖 | 申请(专利权)人: | 中国科学院自动化研究所 |
主分类号: | G06Q10/04 | 分类号: | G06Q10/04;G06K9/62 |
代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 王毅 |
地址: | 100190 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 影视作品 评分 预测 模型 构建 方法 | ||
1.一种影视作品评分预测模型的构建方法,其特征在于,包括以下步骤:
采集影视平台上的视频的属性数据;
去除所述属性数据中与视频评分的相关性小于预设的相关性阈值下限的数据,得到保留数据项;
将所述保留数据项中数据间的相关性大于预设的相关性阈值上限的数据按照合并规则进行合并,直至所述保留数据项中的数据间的相关性均小于所述相关性阈值上限;
将经合并处理后的数据与所述保留数据项中原有的相关性小于相关性阈值上限的数据进行拼接构造视频的特征向量;
对所述特征向量进行编码,并与所述保留数据项中原有的相关性小于相关性阈值上限的数据拼接后,输入预设的模型内训练得到评分预测模型。
2.根据权利要求1所述的影视作品评分预测模型的构建方法,其特征在于,通过网络爬虫采集影视平台上的视频的属性数据;
其中,所述属性数据包括影片特征属性数据和创作人员属性数据。
3.根据权利要求1所述的影视作品评分预测模型的构建方法,其特征在于,去除所述属性数据中与视频评分的相关性小于预设的相关性阈值下限的数据,得到保留数据项的具体方法为:
构造所述属性数据内数据间的皮尔逊系数;
将所述属性数据中与视频评分的皮尔逊系数小于所述相关性阈值下限的数据进行删除,即得到所述保留数据项。
4.根据权利要求3所述的影视作品评分预测模型的构建方法,其特征在于,将所述保留数据项中数据间的相关性大于预设的相关性阈值上限的数据按照合并规则进行合并,直至所述保留数据项中的数据间的相关性均小于所述相关性阈值上限的具体方法为:
将所述保留数据项中的数据间的皮尔逊系数大于相关性阈值上限的数据作为高相关待合并特征数据;
选择所述高相关待合并特征数据中皮尔逊系数最大的两个数据进行特征合并;
将所述保留数据项中已进行特征合并的数据删除,并重复高相关待合并特征数据判断和特征合并操作,直至所述保留数据项中不存在数据间的皮尔逊系数大于相关性阈值上限的数据。
5.根据权利要求1所述的影视作品评分预测模型的构建方法,其特征在于,对所述特征向量进行编码,并与所述保留数据项中原有的相关性小于相关性阈值上限的数据拼接后,输入预设的模型内训练得到评分预测模型的具体方法为:
对所述特征向量的数据进行独热编码处理后,构造视频特征数据集;
按照预定的比例将所述视频特征数据集划分为验证集、训练集和测试集;
利用所述验证集对预设的极端梯度提升模型进行超参数优化;
将所述训练集和测试集放入经验证集优化的极端梯度提升模型进行训练,并使用交叉验证法进行模型评估,即得所述评分预测模型。
6.根据权利要求5所述的影视作品评分预测模型的构建方法,其特征在于,利用所述验证集基于机器学习结合k折交叉验证法的网格搜索法对极端梯度提升模型进行超参数优化。
7.一种影视作品评分预测模型的构建装置,其特征在于,包括:
采集模块,用于采集影视平台上的视频的属性数据;
第一处理模块,用于去除所述属性数据中与视频评分的相关性小于预设的相关性阈值下限的数据,得到保留数据项;
第二处理模块,用于将由所述第一处理模块得到的保留数据项中的数据间的相关性大于预设的相关性阈值上限的数据按照合并规则进行合并,直至所述保留数据项中的数据间的相关性均小于所述相关性阈值上限;
构造模块,用于将经合并处理后的数据与所述保留数据项中原有的相关性小于相关性阈值上限的数据进行拼接构造视频的特征向量;
训练模块,用于对所述构造模块构造的特征向量进行编码,并与所述保留数据项中原有的相关性小于相关性阈值上限的数据拼接后,输入预设的模型内进行训练,从而得到评分预测模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院自动化研究所,未经中国科学院自动化研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110948252.7/1.html,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06Q 专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法;其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的处理系统或方法
G06Q10-00 行政;管理
G06Q10-02 .预定,例如用于门票、服务或事件的
G06Q10-04 .预测或优化,例如线性规划、“旅行商问题”或“下料问题”
G06Q10-06 .资源、工作流、人员或项目管理,例如组织、规划、调度或分配时间、人员或机器资源;企业规划;组织模型
G06Q10-08 .物流,例如仓储、装货、配送或运输;存货或库存管理,例如订货、采购或平衡订单
G06Q10-10 .办公自动化,例如电子邮件或群件的计算机辅助管理