[发明专利]一种基于视频评论文本的视频标签确定方法有效
申请号: | 201911347396.6 | 申请日: | 2019-12-24 |
公开(公告)号: | CN111046233B | 公开(公告)日: | 2022-05-13 |
发明(设计)人: | 王瑞琛;杜歆 | 申请(专利权)人: | 浙江大学 |
主分类号: | G06F16/78 | 分类号: | G06F16/78;G06F16/75;G06N3/04;G06N3/08 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 邱启旺 |
地址: | 310058 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 视频 评论 文本 标签 确定 方法 | ||
本发明公开了一种基于视频评论文本的视频标签确定方法。该方法包括:(1)对视频评论进行数据清洗以及预处理;(2)使用预处理后的评论文档D以及对应的视频标签训练多层注意力网络模型;(3)将目标视频的评论文档输入至训练好的多层注意力网络模型,确定目标视频的标签。本发明提供的视频标签确定方法,能有效确定视频所需对应的标签。
技术领域
本发明属于数据处理技术领域,涉及一种基于视频评论文本的视频标签确定方法。具体来说,涉及一种当给定目标视频的用户评论后,从评论中获取关键信息,并确定目标视频标签的方法。
背景技术
为了更好的帮助用户检索视频,视频门户网站通常会对视频打上多个标签,以使用户能快速了解视频的主题和风格,帮助用户快速检索到想看的视频,从而提高用户体验以及视频点击率。
现有技术中,视频标签通常采用人工手动标注的方法,即在视频上传时由上传者人工选择对应的标签,由于主要依赖视频上传者的主观判断,以及缺乏用户的有效反馈,人工上传的标签存在一定的随意性和主观性。
而申请人发现,视频评论作为观众对视频的直接反馈,如果基于用户的评论来确定视频的标签,不仅可以降低人工的成本,也可以将用户的观感考虑进来,得到更接近用户体验的标签。
目前普遍使用的文本标签获得的方法主要是TF-IDF、LDA、TextRank等无监督关键字提取方法,和SVM、TextCNN、RNN等有监督文档分类方法。
在TF-IDF、LDA、TextRank等无监督方法中,通常直接使用统计学方法从文本中提取关键词作为标签。当用户的表达较为隐晦,未直接使用标签词时,容易提取不到准确地关键词;或者多个近义词表达同一个关键字时,会无法联系到不同关键词之间的相关性。
SVM、TextCNN、RNN等有监督方法,使用了机器学习模型,能解决无监督方法中的部分问题,但是由于没有考虑到不同评论、不同词语对于标签确定的贡献程度,此类方法存在收敛缓慢,分类效果差的问题。
由于以上问题,如何利用用户的评论信息,获取视频的关键评论,评论的关键词并确定视频的标签则是一个亟待解决的问题。
发明内容
本发明的目的在于针对现有技术的不足,提供了一种基于视频评论文本的视频标签确定方法。
本发明的目的是通过以下技术方案来实现的:一种基于视频评论文本的视频标签确定方法,该方法包括以下步骤:
(1)对视频评论进行数据清洗以及预处理:获取原始评论数据,将每条原始评论数据中的特殊符号、标点符号等非文本信息删除,再进行分词处理、并删除停用词,得到预处理后的评论文档D。
(2)使用预处理后的评论文档D以及对应的视频标签训练多层注意力网络模型。包括以下步骤:
(2.1)对视频标签进行独热编码,将视频标签编码成固定长度的独热编码l。
(2.2)对预处理后的评论文档D进行过采样和欠采样处理,并对每个评论文档中的评论按照从长到短的顺序排序,得到文档集D’。
(2.3)使用所述文档集D’和对应的独热编码l训练多层注意力网络模型,得到训练好的多层注意力网络模型。
(3)将目标视频的评论文档输入至训练好的多层注意力网络模型,确定目标视频的标签,具体包括以下子步骤:
(3.1)对目标视频的评论文档进行步骤1所述的数据清洗以及预处理。
(3.2)将步骤3.1预处理后的目标视频的的评论文档输入到训练好的多层注意力网络模型中,得到每个标签的预测置信度。
(3.3)将每个标签的预测置信度从高到低进行排序,并将预测置信度高于阈值的标签确定为目标视频的标签。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911347396.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:语音设备鉴权方法及系统
- 下一篇:区域气温变化的定量预测方法