[发明专利]一种通用主题嵌入模型联合训练方法有效
申请号: | 201810368425.6 | 申请日: | 2018-04-23 |
公开(公告)号: | CN108549718B | 公开(公告)日: | 2019-10-18 |
发明(设计)人: | 顾荣;黄宜华;赵博;肖倩;袁春风 | 申请(专利权)人: | 南京大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06K9/62 |
代理公司: | 苏州威世朋知识产权代理事务所(普通合伙) 32235 | 代理人: | 杨林洁 |
地址: | 210093 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 嵌入 目标文本 下降算法 主题模型 初始化 通用的 构建 联合 期望最大化算法 预处理 参数矩阵 多次迭代 模型组合 随机梯度 通用主题 网络结构 训练模型 一次迭代 原始文档 正则化项 采样表 词汇表 建模 语料 | ||
1.一种通用主题嵌入模型联合训练方法,包括以下步骤:
(1)使用查表法预先计算sigmoid和softmax函数值;
(2)扫描语料,统计文档中出现的每个单词的频数;
(3)初始化网络结构,首先初始化主题模型的参数:文档主题分布矩阵Θ和主题单词分布矩阵Φ,然后初始化嵌入模型的参数:所有单词的词向量矩阵V、上下文向量矩阵U、所有主题的主题向量矩阵Y、所有文档的文本向量矩阵G;
(4)对主题模型和嵌入模型联合建模得到组合模型HieraVec,目标函数为一个带正则化项的主题模型中词w生成概率与嵌入模型中词w生成概率联立得到的,因此,给定一个文档集合D,单词集合W,主题模型的参数集为Ψ,嵌入模型的参数集为Ω,则对数似然函数L为:
式中,Pt(w|d,Ψ)是基于参数空间为Ψ的主题模型中,文档d中生成词w的概率,而Pe(w|Cw,Ω)为上下文词集合为Cw,参数空间为Ω的嵌入模型产生同样的单词w的概率;θd为主题模型中的文档主题概率分布,md为通过嵌入模型计算得到的相对应的文档主题模拟分布;同样的,φt为主题模型中的主题词概率分布,mt为通过嵌入模型计算得到的相对应的主题词模拟分布;Dα(p||q)是概率分布p与q的Rényi散度,η和μ是超参数,η和μ的值为实数;
式1是一个通用抽象的算法框架,依赖于所选择的具体主题模型和嵌入模型来决定Ψ和Ω详细的参数以及θd,φt,Cw,md和mt的计算方式;选择具体的两种模型pLSA和PV-DBOW为组件模型,从而提出组合模型HieraVecPD;设置HieraVecPD的的Rényi散度的α为0.5,使用对应向量点积的softmax函数为模拟分布mdt和mtw,HierVecPD的目标函数为:
式中,v,u代表对应的V,U矩阵的行向量,c为上下文词;与式1对应,主题模型的参数集Ψ={Θ,Φ},嵌入模型的参数集Ω={V,U,G,Y};
将式1分成四个部分,得到对应部分的具体含义:
第一部分是LT=∑d∑wln∑tθdtφtw,这是标准的主题模型的对数似然函数;
第二部分是LE=∑d∑wln Pe(w|Cw,Ω),这是标准的嵌入模型的对数似然函数;
第三部分是RD=-η∑dDα(md||θd),这是一个正则化项,最大化md和θd之间的相似性;第四部分是RW=-μ∑dDα(mt||φt),这是一个正则化项,最大化mt和φt之间的相似性。
2.根据权利要求1所述一种通用主题嵌入模型联合训练方法,其特征在于:模型的训练过程采用旋转优化的方式,根据不同部分参数的特性,引进三阶段训练方法,针对式2的目标函数,设计一个旋转优化方法三阶段参数训练模式来迭代优化参数:每个阶段优化一部分参数,而固定其他的参数不变,在不同的阶段使用不同的参数学习方法;第一阶段采用期望最大化算法来更新主题模型参数;第二阶段采用随机梯度下降算法来更新嵌入模型参数;第三阶段利用完全梯度下降算法来更新正则化项参数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京大学,未经南京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810368425.6/1.html,转载请声明来源钻瓜专利网。