[发明专利]云计算模式中融合词嵌入和非负矩阵分解技术的服务建模方法在审
申请号: | 202110097169.3 | 申请日: | 2021-01-25 |
公开(公告)号: | CN112836490A | 公开(公告)日: | 2021-05-25 |
发明(设计)人: | 陆佳炜;赵伟;郑嘉弘;徐俊;张元鸣;肖刚 | 申请(专利权)人: | 浙江工业大学 |
主分类号: | G06F40/216 | 分类号: | G06F40/216;G06K9/62 |
代理公司: | 杭州斯可睿专利事务所有限公司 33241 | 代理人: | 王利强 |
地址: | 310014 浙江省*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 计算 模式 融合 嵌入 矩阵 分解 技术 服务 建模 方法 | ||
1.一种云计算模式中融合词嵌入和非负矩阵分解技术的服务建模方法,其特征在于,所述方法包括以下步骤:
第一步:统计每个Mashup服务中单词词频信息,即单词出现的次数,构建文档-词频关系矩阵D;
第二步:统计单词共现信息,从而计算出SPPMI矩阵信息,步骤如下:
2.1统计词共现信息,将整个服务描述文档作为滑动窗口的长度,计算每个单词和其他单词在上下文中共同出现的次数;
2.2点互信息PMI计算,当两个单词在文本中共现概率越大时,单词间的相关性就越强,PMI计算公式如下所示:
x和y表示两个单词,P(x,y)表示单词x和y共现的概率,P(x)表示单词x在上下文中出现概率,根据单词wj和其上下文单词wc在语料库中的实际共现次数,可以计算出两者之间的PMI值:
#(wj,wc)表示单词wj和上下文单词wc在语料库中的实际共现次数,E为上下文单词对共现的总次数,#(wj)为单词wj和其他单词共现的次数,Voc表示语料库,即不重复单词的集合;
2.3计算偏移正点互信息值矩阵SPPMI,SPPMI矩阵通过PMI值计算,SPPMI矩阵的计算方式为:
SPPMI(wj,wc)=max(PMI(wj,wc)-logκ,0)
其中κ为负采样系数,通过上述公式得到单词的上下文SPPMI矩阵M;
第三步:基于第一步,第二步得到Mashup服务文档单词的词频信息矩阵D,单词的上下文SPPMI矩阵M,通过分解M得到词嵌入信息矩阵,进一步将上述两种信息进行结合,计算服务的主题信息,步骤如下:
3.1通过由第一步给定全局文档-单词关系矩阵D,通过NMF将其分解为文档-主题矩阵θ和主题-单词矩阵Z乘积,分解矩阵D的目标函数表示为;
subject to:θ≥0 and Z≥0,θ∈RNxK,Z∈RVxK
其中代表L2范数,N表示Mashup文档数量,K表示文档的主题数量,V表示语料库单词的数量,R表示实数集,上标T表示矩阵转置,NMF是在矩阵中所有元素均为非负数约束条件之下,将一个非负矩阵表示为另外两个非负矩阵乘积方式的矩阵分解方法;
3.2通过第一步,第二步计算得到单词的上下文SPPMI矩阵M,分解矩阵M引入词嵌入信息,分解M的目标函数如下所示:
S是一个额外的对称因子,用于M的近似求解,W为单词的词嵌入矩阵;
3.3利用Mashup服务文档和单词间的关系,可以发现主题信息,通过文档内单词上下文的共现信息,可以学习到词嵌入信息;但是这两个部分并不相互孤立,语义相关的单词属于相似的主题,在嵌入空间中也很接近;单词嵌入与它们的主题相关,关系的目标函数如下所示:
3.4结合步骤3.1,3.2和3.3,得到主题模型的目标函数:
subject to:θ≥0 and Z≥0
求解该目标函数,使用矩阵迹运算将上述公式展开:
J(θ,Z,W,S,A)=λdTr((D-θZT)(D-θZT)T)+λwTr((M-WSWT)(M-WSWT)T)+λtTr((Z-WAT)(Z-WAT)T)
其中J(θ,Z,W,S,A)为J4在θ,Z,W,S,A参数下的展开形式,进一步运算得到以下公式:
J(θ,Z,W,S,A)=λdTr(DDT-2DZθT+θZTZθT)+λwTr(MMT-2MWSWT+WSWTWSWT)+λtTr(ZZT-2ZAWT+WATAWT)
Tr表示矩阵求迹,λd,λw和λt为不同部分的权重系数,用于调整各部分计算的误差对结果的影响,根据正则化约束得到以下目标函数:
其中α,β,γ,ω为正则化参数,避免过拟合;为使目标函数最小化,对上述目标函数求偏导得到以下公式:
令α⊙θ=0,β⊙Z=0,γ⊙W=0,ω⊙A=0,⊙表示阿达马乘积,即矩阵对应位置的乘积,利用阿达马乘积,令上述公式偏导为0,进一步得到以下等式方程:
-(DZ)⊙θ+(θZTZ)⊙θ+α⊙θ=0
-(λdDTθ+λtWAT)⊙Z+(λdZθTZ+λtZ)⊙Z+β⊙Z=0
-2(λwMWS+λtZA)⊙W+(λtWATAW+2λwWSWTWS)⊙W+γ⊙W=0
-(ZTW)⊙A+(AWTW)⊙A+ω⊙)A=0
进一步更新参数:
通过上述参数更新方式,求解出Mashup服务文档-主题矩阵θ和主题-单词矩阵Z,词嵌入矩阵W,主题嵌入矩阵A。
2.如权利要求1所述的云计算模式中融合词嵌入和非负矩阵分解技术的服务建模方法,其特征在于,所述2.1的过程如下:
2.1.1对于当前Mashup服务,计算该Mashup服务描述文档长度Len,设定滑动窗口长度为Len;
2.1.2统计Mashup服务描述文档中单词和其他单词的共现情况,若当前单词的上下文单词,即该单词前后的单词,在滑动窗口Len的距离内,则该单词和其在滑动窗口内的上下文单词共现次数加1;
2.1.3重复2.1.2直至处理完Mashup中的所有单词;
2.1.4重复2.1.1-2.1.3直至处理完所有Mashup服务。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江工业大学,未经浙江工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110097169.3/1.html,转载请声明来源钻瓜专利网。