[发明专利]一种基于词向量和上下文信息的短文本主题模型在审

专利信息
申请号: 201810124600.7 申请日: 2018-02-07
公开(公告)号: CN108415901A 公开(公告)日: 2018-08-17
发明(设计)人: 梁文新;冯然;张宪超 申请(专利权)人: 大连理工大学
主分类号: G06F17/27 分类号: G06F17/27
代理公司: 大连理工大学专利中心 21200 代理人: 温福雪;侯明远
地址: 116024 辽*** 国省代码: 辽宁;21
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 单词 短文本 词向量 上下文信息 语义一致性 背景主题 语义关系 主题模型 建模 训练集数据 训练数据集 语义 采样策略 语义联系 罐子 采样法 采样 求解 推导 文档 显式 噪声 过滤 概率
【权利要求书】:

1.一种基于词向量和上下文信息的短文本主题模型,其特征在于,有效地利用词向量以及上下文信息来获取单词之间的语义相似度,并将语义相似度信息应用到吉布斯采样的过程中,增大主题的语义一致性:

(1)获取单词之间的语义相似度

从维基百科或谷歌新闻中训练词向量,得到训练数据中每个单词的向量表示,用向量之间的余弦相似度来表示两个单词之间的语义相关性;对于单词wi以及wj,对应的词向量为vi以及vj,则单词之间的语义相似度定义为:对于训练集中的每个单词,得到其语义相关单词的集合S(w),其定义为:S(w)={wo|SR(w,wo)>ε},其中ε的取值视数据集而定,其范围是ε∈[0,1];

(2)使用训练数据过滤单词间语义相似度信息

词向量是从大型数据集中训练得到的,其中包含的语义信息可能并不适用于训练数据,为了进一步包含训练数据的特征,使用点互信息PMI对得到的语义相似度信息进行过滤,单词wi和wj之间的PMI定义为:

其中,p(wi,wj)表示单词wi和wj在同一篇文档中共同出现的概率,p(w)表示单词w在文档集合中出现的概率,由包含该单词的文档频率去估计;根据PMI重新定义集合S(w)为:S(w)={wo|SR(w,wo)>ε,PMI(w,wo)≥η},其中η∈(-∞,+∞),具体的取值视数据集而定;

(3)定义模型的生成过程

指定短文档集合中有K个主题和一个背景主题;一篇短文档只包含一个主题,一篇文档中的单词既由一个正常主题产生也由一个背景主题产生;具体的生成过程为:

a)采样得到文档集合的主题分布:θ~Dirichlet(α);

b)采样得到背景主题的单词分布:φB~Dirichlet(β);

c)采样得到二元指示变量的分布:ψ~Dirichlet(γ);

d)对于每个主题k,采样得到主题单词分布:φk~Dirichlet(β);

e)对于文档集中的每篇文档d,首先采样得到该文档的主题;

zd~Multinomial(θ),对于文档d中第i个单词,首先采样一个二元变量

yd,i~Bernoulli(ψ),若yd,i=0,则该单词从主题zd产生,即

wd,i~Multinomial(φzd),若yd,i=1,则该单词从背景主题B产生,即

wd,i~Multinomial(φB);

(4)模型参数求解

模型参数的求解用到的方法是吉布斯采样,根据采样得到的样本来进行参数的最大后验估计;为了在提高主题的语义一致性,应用General Polya Urn模型的采样方法,增大语义相似度较高的单词在相关主题下的统计量,即单词w对应的主题被赋值为k时,则同时,对于wo∈S(w),其中定义为:

根据生成过程,进行采样的隐变量是z与y,而隐变量φB、φ1,...,k、θ和ψ通过最大后验估计得到;对于文档d,其主题z的采样公式为:

其中α、β为Dirichlet分布中的超参数,V为单词表的大小,为单词w在主题k下的统计量,为主题k关于所有单词的统计量,nk为主题为k的文本数目,下标-d表示在计算当前统计量时,文档d不会被考虑进去,得到样本z之后通过最大后验估计得到每个主题关于单词的分布:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连理工大学,未经大连理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201810124600.7/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top