[发明专利]一种通用主题嵌入模型联合训练方法有效

专利信息
申请号: 201810368425.6 申请日: 2018-04-23
公开(公告)号: CN108549718B 公开(公告)日: 2019-10-18
发明(设计)人: 顾荣;黄宜华;赵博;肖倩;袁春风 申请(专利权)人: 南京大学
主分类号: G06F16/35 分类号: G06F16/35;G06K9/62
代理公司: 苏州威世朋知识产权代理事务所(普通合伙) 32235 代理人: 杨林洁
地址: 210093 江*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种通用的主题嵌入模型联合训练方法,包括以下步骤:第一步对输入的原始文档语料进行预处理得到目标文本;第二步对目标文本构建词汇表;第三步初始化网络结构,对模型的参数矩阵进行初始化,并构建负采样表;第四步对主题嵌入模型联合建模、分多次迭代训练模型。每一次迭代过程分为以下三步:第一步,采用期望最大化算法训练主题模型部分;第二步,采用随机梯度下降算法训练嵌入模型部分;第三步,采用完全梯度下降算法训练正则化项部分。本发明可提供一种通用的方式将主题模型与嵌入模型联合训练,解决现有的模型组合方式过于依赖特有模型、通用性不足,很难同时提升两种模型等问题。
搜索关键词: 嵌入 目标文本 下降算法 主题模型 初始化 通用的 构建 联合 期望最大化算法 预处理 参数矩阵 多次迭代 模型组合 随机梯度 通用主题 网络结构 训练模型 一次迭代 原始文档 正则化项 采样表 词汇表 建模 语料
【主权项】:
1.一种通用主题嵌入模型联合训练方法,包括以下步骤:(1)使用查表法预先计算sigmoid和softmax函数值;(2)扫描语料,统计文档中出现的每个单词的频数;(3)初始化网络结构,首先初始化主题模型的参数:文档主题分布矩阵Θ和主题单词分布矩阵Φ,然后初始化嵌入模型的参数:所有单词的词向量矩阵V、上下文向量矩阵U、所有主题的主题向量矩阵Y、所有文档的文本向量矩阵G;(4)对主题模型和嵌入模型联合建模得到组合模型HieraVec,目标函数为一个带正则化项的主题模型中词w生成概率与嵌入模型中词w生成概率联立得到的,因此,给定一个文档集合D,单词集合W,主题模型的参数集为Ψ,嵌入模型的参数集为Ω,则对数似然函数L为:式中,Pt(w|d,Ψ)是基于参数空间为Ψ的主题模型中,文档d中生成词w的概率,而Pe(w|Cw,Ω)为上下文词集合为Cw,参数空间为Ω的嵌入模型产生同样的单词w的概率;θd为主题模型中的文档主题概率分布,md为通过嵌入模型计算得到的相对应的文档主题模拟分布;同样的,φt为主题模型中的主题词概率分布,mt为通过嵌入模型计算得到的相对应的主题词模拟分布;Dα(p||q)是概率分布p与q的Rényi散度,η和μ是超参数,η和μ的值为实数;式1是一个通用抽象的算法框架,依赖于所选择的具体主题模型和嵌入模型来决定Ψ和Ω详细的参数以及θd,φt,Cw,md和mt的计算方式;选择具体的两种模型pLSA和PV‑DBOW为组件模型,从而提出组合模型HieraVecPD;设置HieraVecPD的的Rényi散度的α为0.5,使用对应向量点积的softmax函数为模拟分布mdt和mtw,HierVecPD的目标函数为:式中,v,u代表对应的V,U矩阵的行向量,c为上下文词;与式1对应,主题模型的参数集Ψ={Θ,Φ},嵌入模型的参数集Ω={V,U,G,Y};将式1分成四个部分,得到对应部分的具体含义:第一部分是LT=∑dwln∑tθdtφtw,这是标准的主题模型的对数似然函数;第二部分是LE=∑dwln Pe(w|Cw,Ω),这是标准的嵌入模型的对数似然函数;第三部分是RD=‑η∑dDα(md||θd),这是一个正则化项,最大化md和θd之间的相似性;第四部分是RW=‑μ∑dDα(mt||φt),这是一个正则化项,最大化mt和φt之间的相似性。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京大学,未经南京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201810368425.6/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top