[发明专利]一种面向网络空间多模态大数据的特征表示学习系统有效
申请号: | 201710645116.4 | 申请日: | 2017-08-01 |
公开(公告)号: | CN107563407B | 公开(公告)日: | 2020-08-14 |
发明(设计)人: | 黄震华 | 申请(专利权)人: | 同济大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 上海科律专利代理事务所(特殊普通合伙) 31290 | 代理人: | 叶凤 |
地址: | 200092 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及一种面向网络空间多模态大数据的特征表示学习系统,主要包括七个部件:一个多模态样本生成部件、三个同质的特征抽取部件、一个数据分类部件、一个特征度量部件以及一个多任务损失函数集成部件。多模态样本生成部件构造具有四分量的训练样本集合;三个同质的特征抽取部件分别负责处理训练样本的前三个分量数据,并产生三个一维的特征向量;数据分类部件对训练样本前三个分量数据进行分类学习,并基于第四分量数据构造分类任务损失函数;特征度量部件对训练样本前三个分量数据进行特征度量学习,并构造度量任务损失函数;而多任务损失函数集成部件实现不同任务的加权合成,并优化系统参数。与现有方法相比,本发明具有模态多样、准确度高、泛化能力强、实施便捷等优点,能够有效应用于舆情监控、互联网医疗、个性化推荐以及智能问答等领域。 | ||
搜索关键词: | 一种 面向 网络 空间 多模态大 数据 特征 表示 学习 系统 | ||
【主权项】:
一种面向网络空间多模态大数据的特征表示学习系统,其特征在于,包括七个部件:一个多模态样本生成部件、三个同质的特征抽取部件、一个数据分类部件、一个特征度量部件以及一个多任务损失函数集成部件。所述多模态样本生成部件,产生特征表示学习需要的训练样本集合,所构造的每个训练样本均具有四个分量,其中前三个分量的每一分量可以是如下四个模态类型的任意一类数据:结构化数据、文本数据、图片数据以及视频数据,而第四分量为该训练样本对应的类标签。同时,每个训练样本的前两个分量所对应的数据具有强相关性,而第三个分量所对应的数据与前两个分量所对应的数据具有弱相关性。三个特征抽取部件具有相同的逻辑结构。每一个特征抽取部件负责处理训练样本中一个分量数据,并将它所处理的分量数据编码成一维特征向量。每一个特征抽取部件主要包括四个与模态类型相关的特征抽取子部件:结构化数据特征抽取子部件、文本数据特征抽取子部件、图片数据特征抽取子部件以及视频数据特征抽取子部件。在这四个特征抽取子部件中,本发明每次只激活与分量数据具有相同模态类型的特征抽取子部件,而其它三个特征抽取子部件不工作。另外,在这同质的三个特征抽取部件中,三个相同模态类型的特征抽取子部件共享模型参数,即三个结构化数据特征抽取子部件共享模型参数,三个文本数据特征抽取子部件共享模型参数,三个图片数据特征抽取子部件共享模型参数,三个视频数据特征抽取子部件共享模型参数。所述数据分类部件,是以三个特征抽取部件产生的三个输出一维特征向量以及训练样本的第四分量数据(即类标签)为输入,对训练样本的每一分量数据分别进行分类学习,并对三个分类结果进行合成,从而产生分类任务损失函数。分类任务损失函数刻画数据分类部件对训练样本三个分量数据进行分类的平均准确度。所述特征度量部件,是以三个特征抽取部件产生的三个输出一维特征向量为输入,对训练样本的三个分量数据进行特征度量学习,并产生度量任务损失函数。度量任务损失函数刻画特征度量部件对训练样本前两个分量数据相似性以及对后两个分量数据相异性度量的准确度。所述多任务损失函数集成部件,是对分类任务损失函数和度量任务损失函数进行加权合成,并利用随机优化算法对系统的所有参数进行迭代调整并优化。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于同济大学,未经同济大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710645116.4/,转载请声明来源钻瓜专利网。