[发明专利]基于OCR和ASR的短视频推荐方法、装置及相关设备在审
申请号: | 202211139243.4 | 申请日: | 2022-09-19 |
公开(公告)号: | CN115510274A | 公开(公告)日: | 2022-12-23 |
发明(设计)人: | 袁戟;黄月红 | 申请(专利权)人: | 深圳市万物云科技有限公司;深圳市第五空间网络科技有限公司 |
主分类号: | G06F16/78 | 分类号: | G06F16/78;G06F16/783;G06F16/735;G06F16/75;G06V30/414;G06F40/30;G06F40/216;G06N5/00;G06N20/20;G10L15/26 |
代理公司: | 深圳市精英专利事务所 44242 | 代理人: | 王暄 |
地址: | 518000 广东省深圳市前海深港合作区前*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 ocr asr 视频 推荐 方法 装置 相关 设备 | ||
1.一种基于OCR和ASR的短视频推荐方法,其特征在于,包括:
对用户产生过行为数据的短视频的关键帧进行OCR识别,得到所述关键帧的视频文本,并基于预训练的TFIDF模型对所述视频文本进行关键字提取,得到视频关键字;
获取所述短视频的音频数据,通过ASR语音识别技术对所述音频数据进行语义识别,得到有断句的语音文本,并通过所述TFIDF模型对所述语音文本进行关键字提取,得到音频关键字;
对所述视频关键字和音频关键字进行合并,得到合并文本,并通过预置的SmoothNLP模型对所述合并文本进行关键词提取,得到关键新词;
对所述关键新词进行过滤提取对应的标签数据,并根据所述标签数据对不同用户进行聚类;
对聚类后的每一类别用户,将对应的所述关键新词输入预训练的LightGBM模型进行视频推荐,得到推荐视频。
2.根据权利要求1所述的基于OCR和ASR的短视频推荐方法,其特征在于,所述对用户产生过行为数据的短视频的关键帧进行OCR识别,得到所述关键帧的视频文本之前,包括:
对所述短视频进行均匀抽帧处理,得到多张帧图像;
对所有帧图像进行相关性检测,得到每一张帧图像之间的相关性,保留相关性小的帧图像作为所述关键帧。
3.根据权利要求1所述的基于OCR和ASR的短视频推荐方法,其特征在于,所述通过预置的SmoothNLP模型对所述合并文本进行关键词提取,得到关键新词,包括:
计算所述合并文本中任意两个字符串的互信息,并根据所述互信息确定所述合并文本中每一候选词的平均互信息;
计算所述合并文本中每一候选词的信息熵,并基于所述信息熵和平均互信息确定每一候选词的候选词评分,以候选词评分高的候选词作为关键新词。
4.根据权利要求3所述的基于OCR和ASR的短视频推荐方法,其特征在于,所述计算所述合并文本中任意两个字符串的互信息,并根据所述互信息确定所述合并文本中每一候选词的平均互信息,包括:
按如下公式计算所述合并文本中任意两个字符串的互信息MI:
其中,s1、s2分别表示所述合并文本中的任意两个字符串,p表示概率函数,ln表示自然对数运算;
按如下公式计算所述合并文本中每一候选词的平均互信息AMI:
其中,W表示候选词,n表示候选词内字符串的数量。
5.根据权利要求4所述的基于OCR和ASR的短视频推荐方法,其特征在于,所述计算所述合并文本中每一候选词的信息熵,包括:
按如下公式计算所述信息熵L(W):
其中,LE表示左邻熵,RE表示右邻熵,e表示自然底数。
6.根据权利要求5所述的基于OCR和ASR的短视频推荐方法,其特征在于,所述基于所述信息熵和平均互信息确定每一候选词的候选词评分,包括:
按如下公式计算所述候选词评分score:
score=α·L(W)+β·AMI(W),
其中,α、β分别表示比例常数。
7.根据权利要求1所述的基于OCR和ASR的短视频推荐方法,其特征在于,所述对聚类后的每一类别用户,将对应的所述关键新词输入预训练的LightGBM模型进行视频推荐,得到推荐视频之后,还包括:
采用如下评估指标对所述推荐视频进行评估:
其中,γ表示1和2的常数,取1表示F1,取2表示F2,P表示准确率,R表示召回率。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市万物云科技有限公司;深圳市第五空间网络科技有限公司,未经深圳市万物云科技有限公司;深圳市第五空间网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211139243.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种轴承外圈的加工方法
- 下一篇:一种多孔加热体空气加热的加热不燃烧烟具