[发明专利]一种异构数据共享表示学习方法及系统在审
申请号: | 201611198836.2 | 申请日: | 2016-12-22 |
公开(公告)号: | CN106599266A | 公开(公告)日: | 2017-04-26 |
发明(设计)人: | 刘文印;杨振国;李青 | 申请(专利权)人: | 广东工业大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京集佳知识产权代理有限公司11227 | 代理人: | 罗满 |
地址: | 510062 广东省*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据 共享 表示 学习方法 系统 | ||
技术领域
本发明涉及信息处理技术领域,特别是涉及一种异构数据共享表示学习方法及系统。
背景技术
社交媒体网站使得人们能够方便地产生或分享信息,同时产生了大量的社交媒体数据,其中蕴含了各种各样的现实世界中的概念和人们的活动。社会事件发生时,媒体的报道会引起人们的关注,人们不仅会在社交媒体平台上讨论、发表自己的观点同时也会提供一些自己的所见所闻,这些社交媒体信息不仅是人们对事件的反响,也能为事件提供更全面的信息和额外的线索。因此,事件检测任务近几年吸引了大量的研究者,尤其是社交媒体中的事件检测。社交媒体发布信息的便捷性、实时性强和传播速度快等特点,使得社交媒体数据在事件检测中尤为重要。
在实际应用中,就单个事件而言,社交媒体平台中关于该事件的内容可能是被多个用户发布或者分享,这些用户可能地理上分布不同、分享的时间不同、模态形式不同、内容不同、描述角度不同等等,因此造成信息分布散乱。因此多模态数据存在异构性、数据量大和计算代价大的特点,这给多模态数据的处理及蕴含的事件挖掘带来了挑战。
目前,单一模态数据挖掘方法由于多模态数据的异构性和数据量大的特点,不能处理场景中的数据;多模态融合技术虽然可针对多模态数据进行有效处理,但较高的计算复杂度使得进行多模态数据处理时占用大量内存,不适用于社交媒体平台。
由此可见,现有技术方案对多模态数据进行处理时无法同时解决存在的异构性、数据量大和计算代价大的问题。
发明内容
有鉴于此,本发明提供一种异构数据共享表示学习方法及系统,能够融合社交媒体中的多模态数据并实现有效的判别表示,克服了现有技术方案在对社交媒体数据进行处理时无法同时解决存在的异构性、数据量大和计算代价大的问题。
为解决上述技术问题,本发明提供如下技术方案:
一种异构数据共享表示学习方法,包括:
选取数据中的预设数据样本为原子,构建数据样本词典;
提取所述数据样本词典中的原子在各个模态的特征表示,构建各个模态的特征词典,每一模态的特征词典以各预设数据样本在对应模态提取的特征表示为原子;
基于数据样本在各个模态提取的特征表示、各个模态的所述特征词典构建数据重构模型,学习获得数据样本的数据共享表示,以根据所述数据共享表示对该数据样本进行分类。
可选地,当在数据中无标定数据时,任取一个特征模态对数据进行聚类,选取代表性数据样本作为所述预设数据样本。
可选地,所述基于数据样本在各个模态提取的特征表示、各个模态的所述特征词典构建数据重构模型之前,还包括:
计算数据样本在各个模态提取的特征表示分别与对应模态的特征词典中各原子的相似度值,得到的结果作为数据样本在各个模态的特征表示,数据样本第i个模态的特征表示为Xm,m∈[1,M];
所述基于数据样本在各个模态提取的特征表示、各个模态的所述特征词典构建数据重构模型,学习获得数据样本的数据共享表示包括:
建立的所述数据重构模型表示如下:
其中,第一个正则项表示对重构误差的约束,第二个正则项表示低秩约束,第三个正则项表示拉普拉斯约束,Z表示数据共享表示,Lm表示第m个模态上构造的拉普拉斯矩阵;并有如下关系:
其中,N表示数据样本的数目,Wm表示第m个模态上利用相似度值构造的邻接图矩阵,Degm表示第m个模态上的度矩阵。
可选地,当在数据中有标定数据时,以标定数据样本作为所述预设数据样本。
可选地,所述基于数据样本在各个模态提取的特征表示、各个模态的所述特征词典构建数据重构模型之前,还包括:
计算数据样本在各个模态提取的特征表示分别与对应模态的特征词典中各原子的相似度值,得到的结果作为数据样本在各个模态的特征表示,数据样本第i个模态的特征表示为Xm(t),m∈[1,M];
根据数据样本词典的标签,对各个模态的特征词典划分为K个子集,得到各个模态的特征词典表示为:其中ec表示第c个事件标签;
所述基于数据样本在各个模态提取的特征表示、各个模态的所述特征词典构建数据重构模型,计算获得数据样本的数据共享表示包括:
建立的所述数据重构模型表示如下:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东工业大学,未经广东工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611198836.2/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置