[发明专利]一种基于无监督方式对教学视频进行指代消解的方法在审
申请号: | 201710296033.9 | 申请日: | 2017-06-05 |
公开(公告)号: | CN106997346A | 公开(公告)日: | 2017-08-01 |
发明(设计)人: | 夏春秋 | 申请(专利权)人: | 深圳市唯特视科技有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 518057 广东省深圳市高新技术产业园*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 监督 方式 教学 视频 进行 指代 消解 方法 | ||
1.一种基于无监督方式对教学视频进行指代消解的方法,其特征在于,主要包括视觉-语言模型(一);联合模型的学习和推理(二)。
2.基于权利要求书1所述的视觉-语言模型(一),其特征在于,视觉-语言模型是一个无监督的指代消解模型,由一个处理视频的视觉模型,处理转录的语言模型,以及编码所有指代相关信息的动作图表示三个部分组成,利用动作图作为潜在表示,将实体链接到动作输出,联合学习教学视频中的视觉和语言线索进行图形优化,即找到节点(即动作和实体)之间一组最佳边缘(即指代),本质上,动作图是每个视频中的动作及其指代的潜在表示,并且通过具有其视觉(即帧)和语言(即指令)提示的视频进行观察,动作图包含所有历史信息(即随时间变化的指代)有助于解决复杂的歧义,用于学习给定两个观察值的动作图的似然函数,正式地,优化下面的似然函数:
其中G,V和L分别是以时间为准线的动作图,视频和相应的语音转录集,θV和θL是视觉和语言模型的参数,假设观察在给定动作图的情况下是条件独立的,则可以进一步细分为:
因此分别制定视觉和语言模型,同时二者仍然通过动作图连接。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市唯特视科技有限公司,未经深圳市唯特视科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710296033.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:监控煤矿输送机调速的系统
- 下一篇:医疗配件上料装置