[发明专利]一种基于无监督方式对教学视频进行指代消解的方法在审

申请号：	201710296033.9	申请日：	2017-06-05
公开（公告）号：	CN106997346A	公开（公告）日：	2017-08-01
发明（设计）人：	夏春秋	申请（专利权）人：	深圳市唯特视科技有限公司
主分类号：	G06F17/27	分类号：	G06F17/27;G06F17/30
代理公司：	暂无信息	代理人：	暂无信息
地址：	518057 广东省深圳市高新技术产业园***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于监督方式教学视频进行指代消解方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于无监督方式对教学视频进行指代消解的方法，其特征在于，主要包括视觉-语言模型(一)；联合模型的学习和推理(二)。

2.基于权利要求书1所述的视觉-语言模型(一)，其特征在于，视觉-语言模型是一个无监督的指代消解模型，由一个处理视频的视觉模型，处理转录的语言模型，以及编码所有指代相关信息的动作图表示三个部分组成，利用动作图作为潜在表示，将实体链接到动作输出，联合学习教学视频中的视觉和语言线索进行图形优化，即找到节点(即动作和实体)之间一组最佳边缘(即指代)，本质上，动作图是每个视频中的动作及其指代的潜在表示，并且通过具有其视觉(即帧)和语言(即指令)提示的视频进行观察，动作图包含所有历史信息(即随时间变化的指代)有助于解决复杂的歧义，用于学习给定两个观察值的动作图的似然函数，正式地，优化下面的似然函数：

$<mrow><munder><mrow><mi>arg</mi><mi>max</mi></mrow><mi>G</mi></munder><mi>P</mi><mrow><mo>(</mo><mrow><mi>L</mi><mo>,</mo><mi>V</mi><mo>|</mo><mi>G</mi><mo>;</mo><msub><mi>θ</mi><mi>V</mi></msub><mo>;</mo><msub><mi>θ</mi><mi>L</mi></msub></mrow><mo>)</mo></mrow><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>1</mn><mo>)</mo></mrow></mrow>$

其中G，V和L分别是以时间为准线的动作图，视频和相应的语音转录集，θ_V和θ_L是视觉和语言模型的参数，假设观察在给定动作图的情况下是条件独立的，则可以进一步细分为：

$<mrow><munder><mi>argmax</mi><mi>G</mi></munder><mi>P</mi><mrow><mo>(</mo><mi>L</mi><mo>|</mo><mi>G</mi><mo>;</mo><msub><mi>θ</mi><mi>L</mi></msub><mo>)</mo></mrow><mi>P</mi><mrow><mo>(</mo><mi>V</mi><mo>|</mo><mi>G</mi><mo>;</mo><msub><mi>θ</mi><mi>V</mi></msub><mo>)</mo></mrow><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>2</mn><mo>)</mo></mrow></mrow>$

因此分别制定视觉和语言模型，同时二者仍然通过动作图连接。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于深圳市唯特视科技有限公司，未经深圳市唯特视科技有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201710296033.9/1.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于无监督方式对教学视频进行指代消解的方法在审

专利文献下载