[发明专利]语义和知识扩展主题模型的网络媒体事件的类别检测方法在审

专利信息
申请号: 202110366951.0 申请日: 2021-04-06
公开(公告)号: CN113051932A 公开(公告)日: 2021-06-29
发明(设计)人: 薛峰;缪乃阳;张涛 申请(专利权)人: 合肥工业大学
主分类号: G06F40/30 分类号: G06F40/30;G06F16/35;G06F16/9536;G06F40/216;G06F40/242;G06F40/284;G06F40/289;G06Q50/00
代理公司: 安徽省合肥新安专利代理有限责任公司 34101 代理人: 陆丽莉;何梅生
地址: 230009 安*** 国省代码: 安徽;34
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 语义 知识 扩展 主题 模型 网络媒体 事件 类别 检测 方法
【权利要求书】:

1.一种语义和知识扩展主题模型的网络媒体事件的类别检测方法,其特征包括:

步骤1、获取网络媒体事件的数据集,并对数据集中每篇文档的文本数据进行分句分词、词形还原、词性标注的预处理,从而构建文本字典;

步骤2、对所述数据集中每篇文档相应的图像数据并进行分块处理,将分块后的每个小块作为一个视觉单词,提取每个视觉单词的图像特征,从而构建视觉词字典;

步骤3、利用式(1)构建网络媒体事件的分类损失函数:

式(1)中,q表示后验分布,L()表示后验分布q的对数似然的上界,c表示正则化参数,D表示所述数据集中的文档数,L表示网络媒体事件的类别数,Εq[]表示关于后验分布q的数学期望,表示第d篇文档属于第l个类别的铰链损失函数,并有:

式(2)中,ηl表示第l个类别的判别系数,上标T表示转置,ι表示预定义的代价参数,表示第d篇文档的主题经验比例,表示第d篇文档是否属于第l个类别的二分类标签,并有:

式(3)中,yd表示第d篇文档的实际类别标签;

步骤4、数据的生成过程:

步骤4.1、从先验参数为α的狄利克雷分布中采样第d篇文档的主题分布参数θd

步骤4.2、对于第k个主题:

(1)从先验参数为βw的狄利克雷分布中采样数据集所对应的文本模态的词分布

(2)从先验参数为βv的狄利克雷分布中采样数据集所对应的视觉模态的词分布

(3)从先验参数为(μ0,C0)的vMF分布中采样位置参数μk

(4)从先验参数为的对数正态分布中采样vMF分布的宽度参数κk

步骤4.3、令u=(d,m0)表示第d篇文档的第m0个实体向量的下标:

(1)从主题分布参数为θd的多项式分布中采样一个主题

(2)从参数为的vMF分布中采样第d篇文档的第m0个实体向量eu

步骤4.4、令i=(d,m1)表示第d篇文档的第m1个文本词的下标:

(1)从主题分布参数为θd的多项式分布中采样一个主题

(2)根据第m1个文本词wi的词性先验p,从参数为的多项式分布中采样Sp次第m1个文本词wi

步骤4.5、令j=(d,m2)表示第d篇文档的第m2个视觉词的下标:

(1)从主题分布参数为θd的多项式分布中采样一个主题

(2)从参数为的多项式分布中采样第d篇文档的第m2个视觉词vj

步骤4.6、采样第d篇文档的实际类别标签yd

(1)对于判别系数η,依次从参数为(0,σ2)的正态分布中采样其第k个分量ηk

(2)从参数为的max-margin分布中采样第d篇文档的实际类别标签yd

步骤5、利用生成过程构建如式(4)所示的联合分布q(η,λ,z,θ,Φwv):

式(4)中,ψ(y,w,v,E)表示归一化常数,其中,y表示类别变量,w表示文本词向量,v表示视觉词向量,E表示知识实体矩阵;p0(η,z,θ,Φwv)表示先验分布,其中,z表示主题分配向量,θ表示主题比例,Φw表示文本词分布的参数矩阵,Φv表示视觉词分布的参数矩阵,p(w,v,E|z,Φwv)是生成过程的条件概率;是表示类别信息的后验分布,其中,λ是增广变量;

步骤6、利用式(5)得到采样实体向量主题的概率:

式(5)中,表示去掉下标u对应实体向量的主题分配后,下标u对应实体向量分配到第k个主题下的概率,表示去掉下标u对应实体向量的主题计数后第d篇文档中第k个主题下的计数;α为狄利克雷先验;CL(x)表示vMF分布的系数函数,||.||表示向量的模;κk是vMF分布的宽度参数;eii表示第d篇文档中第ii个实体向量;(μ0,C0)是vMF分布的先验参数;

步骤7、利用式(6)采样vMF分布的宽度参数:

式(6)中,表示第k个主题的实体向量计数;logNormal(·)表示对数正态分布的概率密度函数;为对数正态分布的先验参数;

步骤8、利用式(7)采样判别系数η:

q(η|z,λ)∝N(μ,Σ) (7)

式(7)中,判别系数η的先验服从高斯分布,即p0k)=N(0,σ2),其中,σ是一个非零参数;μ表示均值,Σ表示协方差矩阵,并有:

式(8)中,表示第d篇文档的主题经验比例;上标T表示转置;I表示单位矩阵;

步骤9、利用式(9)采样文本词的主题:

式(9)中,表示文本模态中去掉下标i对应文本词的主题后的主题向量;wi=t0表示文本词wi对应文本字典中第t0个词项;表示去掉下标i对应文本词的主题计数后第k个主题下属于第t0个词项的单词计数;表示去掉下标i对应文本词的主题计数后第d篇文档中第k个主题下的计数;α,β都为狄利克雷先验;为第d篇文档在第l个类别下的增广值;表示第d篇文档中的文本词个数;ηlk表示第l个类别对应的判别向量的第k维的值;表示排除下标i对应的词的判别式函数值,且

步骤10、利用式(10)采样视觉词的主题:

式(9)中,表示视觉模态中去掉下标j对应视觉词的主题后的主题向量;vj=t1表示视觉词vj对应视觉字典中第t1个词项;表示去掉下标j对应视觉词的主题计数后第k个主题下属于第t1个词项的单词计数;表示去掉下标j对应视觉词的主题计数后第d篇文档中第k个主题下的计数;表示第d篇文档中的视觉词个数;表示排除下标j对应的词的判别式函数值,且

步骤11、利用式(11)采样第d篇文档的增广值变量λd

式(11)中,GIG(x;p,a,b)是广义逆高斯分布;

步骤12、在吉布斯采样的过程中,利用式(12)估计主题分布参数θd、文本模态的词分布参数和视觉模态的词分布参数

式(10)中,分别为第d篇文档中的文本词、视觉词以及实体向量的个数,K为主题数,Mw表示文本词典的长度,Mv表示视觉词典的长度;nd,k表示第d篇文档中第k个主题下的单词及实体向量计数,表示文本模态中第k个主题下第t0个词项的单词计数,表示文本模态中第k个主题下总的单词计数,表示视觉模态中第k个主题下第t1个词项的单词计数,表示视觉模态中第k个主题下总的单词计数;

步骤13、利用式(13)预测文档属于判别式函数值最大的单一类别:

式(13)中,L是类别数目。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于合肥工业大学,未经合肥工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110366951.0/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top