[发明专利]一种视频相似度的计算方法在审

申请号：	201511008475.6	申请日：	2015-12-29
公开（公告）号：	CN105654125A	公开（公告）日：	2016-06-08
发明（设计）人：	邢建平;田欣玉;宋宪明;刘绪	申请（专利权）人：	山东大学
主分类号：	G06K9/62	分类号：	G06K9/62;G06F17/30
代理公司：	济南金迪知识产权代理有限公司 37219	代理人：	杨树云
地址：	250199 山***	国省代码：	山东;37
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明涉及一种视频相似度的计算方法，具体包括：(1)提取视频A初步文本特征；(2)采用LDA主题模型提取视频A的隐性特征；(3)计算视频A的文本特征v_A，通过步骤(1)-(3)计算视频的B文本特征v_B，并计算视频A、视频B之间的相似度。本发明通过对用户的历史数据分析构建用户特征画像，为了达到高效的目的，用户特征画像的建立是通过离线处理装置事先算好的，因此，可周期性获取用户特征，最后将用户特征画像融入到相关视频推荐中，从而达到了个性化推荐的目的。本发明根据用户的评论对传统的相似视频计算方法进行修正，在提高相关视频转化率及提升用户体验的同时，也给视频供应商带来了巨大的经济效益。
搜索关键词：	一种视频相似计算方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

一种视频相似度的计算方法，其特征在于，具体步骤包括：(1)提取视频A初步文本特征①对所述视频A的简介进行中文分词；②计算步骤①获取的每个分词的频率，计算公式如式(Ⅰ)所示：

<mrow><msub><mi>β</mi><mrow><mi>a</mi><mo>,</mo><mi>d</mi></mrow></msub><mo>=</mo><mfrac><mrow><mi>c</mi><mi>o</mi><mi>u</mi><mi>n</mi><mi>t</mi><mrow><mo>(</mo><mi>a</mi><mo>,</mo><mi>d</mi><mo>)</mo></mrow></mrow><mrow><mi>c</mi><mi>o</mi><mi>u</mi><mi>n</mi><mi>t</mi><mrow><mo>(</mo><mi>d</mi><mo>)</mo></mrow></mrow></mfrac></mrow>

(Ⅰ)式(Ⅰ)中，β_a,d是指分词a在视频A的简介d中的频率，count(a,d)是指分词a在视频A的简介d中出现的次数，count(d)是指视频A的简介d中所有分词的数量；③计算分词a在整个数据库中所有视频的简介C中出现的逆文档频率β_a,C，计算公式如式(Ⅱ)所示：

<mrow><msub><mi>β</mi><mrow><mi>a</mi><mo>,</mo><mi>C</mi></mrow></msub><mo>=</mo><mi>l</mi><mi>o</mi><mi>g</mi><mrow><mo>(</mo><mfrac><mi>n</mi><mrow><mi>c</mi><mi>o</mi><mi>u</mi><mi>n</mi><mi>t</mi><mrow><mo>(</mo><mi>a</mi><mo>,</mo><mi>C</mi><mo>)</mo></mrow></mrow></mfrac><mo>)</mo></mrow></mrow>

(Ⅱ)；式(Ⅱ)中，n是指整个数据库中所有视频的简介C的总数，count(a,C)是指整个数据库中所有视频的简介C中出现分词a的视频的简介的数量；④计算分词a在所述视频A的简介中的权重β_α，计算公式如式(Ⅲ)所示：β_α＝β_α,d*β_α,C (Ⅲ)⑤计算视频A的初步文本特征：β_A＝{a:β_a,b:β_b,.........}；其中，{a,b,.........}是指所述视频A的所有分词，{β_a,β_b,.........}是指所述视频A的所有分词对应的权重；(2)采用LDA主题模型提取视频A的隐性特征⑥对所述视频A的简介进行中文分词；⑦将步骤⑥获取的所有分词放置在语料库；⑧将步骤⑦获取的所述语料库输入所述LDA主题模型，指定主题数目，输出：视频A在每个指定主题上的相关度V_tv及所有分词在每个指定主题上的相关度V_at；⑨计算分词a在视频A的简介中的权重α_a，计算公式如式(Ⅳ)所示：α_a＝V_at*V_tv (Ⅳ)⑩计算视频A的隐性特征为α_A＝{a:α_a,b:α_b,.........}，其中，{a,b,.........}是指所述视频A的所有分词，{α_a,α_b,.........}是指所述视频A的所有分词对应的权重；(3)计算视频A的文本特征v_A，计算公式如式(Ⅴ)所示：v_A＝λα_A*(1‑λ)β_A (Ⅴ)式(Ⅴ)中，λ为相似视频转化率最大时的取值；(4)通过步骤(1)‑(3)计算视频的B文本特征v_B，并计算视频A、视频B之间的相似度，计算公式如式(Ⅵ)所示：

<mrow><mi>s</mi><mi>i</mi><mi>m</mi><mrow><mo>(</mo><msub><mi>v</mi><mi>A</mi></msub><mo>,</mo><msub><mi>v</mi><mi>B</mi></msub><mo>)</mo></mrow><mo>=</mo><mi>c</mi><mi>o</mi><mi>s</mi><mrow><mo>(</mo><mover><msub><mi>v</mi><mi>A</mi></msub><mo>&RightArrow;</mo></mover><mo>,</mo><mover><msub><mi>v</mi><mi>B</mi></msub><mo>&RightArrow;</mo></mover><mo>)</mo></mrow><mo>=</mo><mfrac><mrow><mover><msub><mi>v</mi><mi>A</mi></msub><mo>&RightArrow;</mo></mover><mo>·</mo><mover><msub><mi>v</mi><mi>B</mi></msub><mo>&RightArrow;</mo></mover></mrow><mrow><mo>|</mo><mover><msub><mi>v</mi><mi>A</mi></msub><mo>&RightArrow;</mo></mover><mo>|</mo><mo>*</mo><mo>|</mo><mover><msub><mi>v</mi><mi>B</mi></msub><mo>&RightArrow;</mo></mover><mo>|</mo></mrow></mfrac></mrow>

(Ⅵ)。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于山东大学，未经山东大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201511008475.6/，转载请声明来源钻瓜专利网。

上一篇：基于摩擦纳米发电机的条形码系统
下一篇：一种基于深度学习的复杂提花织物缺陷检测方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种视频相似度的计算方法在审

专利文献下载