[发明专利]直播视频主题分类方法、装置及电子设备有效
申请号: | 201910435612.6 | 申请日: | 2019-05-23 |
公开(公告)号: | CN110198490B | 公开(公告)日: | 2021-07-30 |
发明(设计)人: | 赵雨露;徐国华 | 申请(专利权)人: | 北京奇艺世纪科技有限公司 |
主分类号: | H04N21/488 | 分类号: | H04N21/488 |
代理公司: | 北京柏杉松知识产权代理事务所(普通合伙) 11413 | 代理人: | 李欣;马敬 |
地址: | 100080 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 直播 视频 主题 分类 方法 装置 电子设备 | ||
1.一种直播视频主题分类方法,其特征在于,包括:
采集直播视频的弹幕信息;
拼接所述直播视频的弹幕信息,得到弹幕长文本;
将所述弹幕长文本与语料库中的弹幕信息进行匹配,并将所述弹幕长文本中被匹配到的单字或者词语作为关键字,所述语料库中的弹幕信息为选取的预设时间段内的历史弹幕信息,所述被匹配到的单字或者词语为在弹幕长文本和所述历史弹幕信息中均出现的单字或词语;
将第一出现频率大于第一预设阈值且第二出现频率小于第二预设阈值的所述关键字,确定为主题关键字;所述第一出现频率为所述关键字在所述弹幕文本中出现的频率,所述第二出现频率为所述关键字在所述语料库中出现的频率,所述第二预设阈值大于所述第一预设阈值;
基于所述主题关键字确定所述直播视频的主题分类结果。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
在预设时间周期到达时,计算直播视频的最近一个所述预设时间周期的周期弹幕密度,所述周期弹幕密度为最近一个所述预设时间周期内产生的弹幕数量与所述预设时间周期的时长的比值;
计算所述直播视频的平均弹幕密度,所述平均弹幕密度为:从所述直播视频开播至最近一个所述预设时间周期结束时产生的弹幕数量与所述直播视频的开播时长的比值;
若最近一个所述预设时间周期的所述周期弹幕密度与所述平均弹幕密度的差异值大于第三预设阈值,则执行采集所述直播视频的弹幕信息的步骤。
3.根据权利要求2所述的方法,其特征在于,所述采集所述直播视频的弹幕信息,包括:
采集所述直播视频的下一个所述预设时间周期内产生的弹幕信息;或者
采集所述直播视频的最近一个所述预设时间周期内产生的弹幕信息。
4.根据权利要求1所述的方法,其特征在于,所述拼接所述直播视频的弹幕信息,得到弹幕长文本,包括:
针对采集的每条弹幕信息,当该条弹幕信息中存在表情图片,且该表情图片不存在对应文字时,从该条弹幕信息中删除该表情图片,当该条弹幕信息中存在表情图片,且该表情图片存在对应文字时,使用该表情图片的对应文字替换该表情图片,得到修正后弹幕信息;
将修正后弹幕信息进行拼接,得到弹幕长文本。
5.根据权利要求1所述的方法,其特征在于,所述基于所述主题关键字确定所述直播视频的主题分类结果,包括:
基于所述主题关键字,按照预先建立的关键字与主题分类之间的关系,确定所述主题关键字表示的主题分类结果,作为所述直播视频的主题分类结果。
6.一种直播视频主题分类装置,其特征在于,包括:
采集模块,用于采集直播视频的弹幕信息;
拼接模块,用于拼接所述直播视频的弹幕信息,得到弹幕长文本;
匹配模块,用于将所述弹幕长文本与语料库中的弹幕信息进行匹配,并将所述弹幕长文本中被匹配到的单字或者词语作为关键字,所述语料库中的弹幕信息为选取的预设时间段内的历史弹幕信息,所述被匹配到的单字或者词语为在弹幕长文本和所述历史弹幕信息中均出现的单字或词语;
第一确定模块,用于将第一出现频率大于第一预设阈值且第二出现频率小于第二预设阈值的所述关键字,确定为主题关键字,所述第一出现频率为所述关键字在所述弹幕文本中出现的频率,所述第二出现频率为所述关键字在所述语料库中出现的频率,所述第二预设阈值大于所述第一预设阈值;
第二确定模块,用于基于所述主题关键字确定所述直播视频的主题分类结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京奇艺世纪科技有限公司,未经北京奇艺世纪科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910435612.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种多群组音视频互动方法及系统
- 下一篇:一种视频分享方法及装置