[发明专利]基于OCR和ASR的短视频推荐方法、装置及相关设备在审

专利信息
申请号: 202211139243.4 申请日: 2022-09-19
公开(公告)号: CN115510274A 公开(公告)日: 2022-12-23
发明(设计)人: 袁戟;黄月红 申请(专利权)人: 深圳市万物云科技有限公司;深圳市第五空间网络科技有限公司
主分类号: G06F16/78 分类号: G06F16/78;G06F16/783;G06F16/735;G06F16/75;G06V30/414;G06F40/30;G06F40/216;G06N5/00;G06N20/20;G10L15/26
代理公司: 深圳市精英专利事务所 44242 代理人: 王暄
地址: 518000 广东省深圳市前海深港合作区前*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 ocr asr 视频 推荐 方法 装置 相关 设备
【权利要求书】:

1.一种基于OCR和ASR的短视频推荐方法,其特征在于,包括:

对用户产生过行为数据的短视频的关键帧进行OCR识别,得到所述关键帧的视频文本,并基于预训练的TFIDF模型对所述视频文本进行关键字提取,得到视频关键字;

获取所述短视频的音频数据,通过ASR语音识别技术对所述音频数据进行语义识别,得到有断句的语音文本,并通过所述TFIDF模型对所述语音文本进行关键字提取,得到音频关键字;

对所述视频关键字和音频关键字进行合并,得到合并文本,并通过预置的SmoothNLP模型对所述合并文本进行关键词提取,得到关键新词;

对所述关键新词进行过滤提取对应的标签数据,并根据所述标签数据对不同用户进行聚类;

对聚类后的每一类别用户,将对应的所述关键新词输入预训练的LightGBM模型进行视频推荐,得到推荐视频。

2.根据权利要求1所述的基于OCR和ASR的短视频推荐方法,其特征在于,所述对用户产生过行为数据的短视频的关键帧进行OCR识别,得到所述关键帧的视频文本之前,包括:

对所述短视频进行均匀抽帧处理,得到多张帧图像;

对所有帧图像进行相关性检测,得到每一张帧图像之间的相关性,保留相关性小的帧图像作为所述关键帧。

3.根据权利要求1所述的基于OCR和ASR的短视频推荐方法,其特征在于,所述通过预置的SmoothNLP模型对所述合并文本进行关键词提取,得到关键新词,包括:

计算所述合并文本中任意两个字符串的互信息,并根据所述互信息确定所述合并文本中每一候选词的平均互信息;

计算所述合并文本中每一候选词的信息熵,并基于所述信息熵和平均互信息确定每一候选词的候选词评分,以候选词评分高的候选词作为关键新词。

4.根据权利要求3所述的基于OCR和ASR的短视频推荐方法,其特征在于,所述计算所述合并文本中任意两个字符串的互信息,并根据所述互信息确定所述合并文本中每一候选词的平均互信息,包括:

按如下公式计算所述合并文本中任意两个字符串的互信息MI:

其中,s1、s2分别表示所述合并文本中的任意两个字符串,p表示概率函数,ln表示自然对数运算;

按如下公式计算所述合并文本中每一候选词的平均互信息AMI:

其中,W表示候选词,n表示候选词内字符串的数量。

5.根据权利要求4所述的基于OCR和ASR的短视频推荐方法,其特征在于,所述计算所述合并文本中每一候选词的信息熵,包括:

按如下公式计算所述信息熵L(W):

其中,LE表示左邻熵,RE表示右邻熵,e表示自然底数。

6.根据权利要求5所述的基于OCR和ASR的短视频推荐方法,其特征在于,所述基于所述信息熵和平均互信息确定每一候选词的候选词评分,包括:

按如下公式计算所述候选词评分score:

score=α·L(W)+β·AMI(W),

其中,α、β分别表示比例常数。

7.根据权利要求1所述的基于OCR和ASR的短视频推荐方法,其特征在于,所述对聚类后的每一类别用户,将对应的所述关键新词输入预训练的LightGBM模型进行视频推荐,得到推荐视频之后,还包括:

采用如下评估指标对所述推荐视频进行评估:

其中,γ表示1和2的常数,取1表示F1,取2表示F2,P表示准确率,R表示召回率。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市万物云科技有限公司;深圳市第五空间网络科技有限公司,未经深圳市万物云科技有限公司;深圳市第五空间网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202211139243.4/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top