[发明专利]一种基于词向量和上下文信息的短文本主题模型在审
申请号: | 201810124600.7 | 申请日: | 2018-02-07 |
公开(公告)号: | CN108415901A | 公开(公告)日: | 2018-08-17 |
发明(设计)人: | 梁文新;冯然;张宪超 | 申请(专利权)人: | 大连理工大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 大连理工大学专利中心 21200 | 代理人: | 温福雪;侯明远 |
地址: | 116024 辽*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于词向量和上下文信息的短文本主题模型,从词向量中提取单词之间的语义关系,通过显式的获取这种语义关系来弥补了短文本数据单词共现性不足的缺点,通过训练集数据进一步过滤单词之间语义联系,使其更加适用于训练数据集。在生成过程中加入背景主题,通过背景主题来对文档中噪声词进行建模。在模型推导中使用吉布斯采样法对模型进行求解,并在采样的过程中使用广义波利亚罐子模型的采样策略增加语义相关性较大的单词在相关主题下的概率,通过这种方式,使得主题下单词的语义一致性得到了较大的提高。一系列实验表明本发明提出的方法能够较大程度上提高主题的语义一致性,为短文本主题建模提供了一种新方法。 | ||
搜索关键词: | 单词 短文本 词向量 上下文信息 语义一致性 背景主题 语义关系 主题模型 建模 训练集数据 训练数据集 语义 采样策略 语义联系 罐子 采样法 采样 求解 推导 文档 显式 噪声 过滤 概率 | ||
【主权项】:
1.一种基于词向量和上下文信息的短文本主题模型,其特征在于,有效地利用词向量以及上下文信息来获取单词之间的语义相似度,并将语义相似度信息应用到吉布斯采样的过程中,增大主题的语义一致性:(1)获取单词之间的语义相似度从维基百科或谷歌新闻中训练词向量,得到训练数据中每个单词的向量表示,用向量之间的余弦相似度来表示两个单词之间的语义相关性;对于单词wi以及wj,对应的词向量为vi以及vj,则单词之间的语义相似度定义为:对于训练集中的每个单词,得到其语义相关单词的集合S(w),其定义为:S(w)={wo|SR(w,wo)>ε},其中ε的取值视数据集而定,其范围是ε∈[0,1];(2)使用训练数据过滤单词间语义相似度信息词向量是从大型数据集中训练得到的,其中包含的语义信息可能并不适用于训练数据,为了进一步包含训练数据的特征,使用点互信息PMI对得到的语义相似度信息进行过滤,单词wi和wj之间的PMI定义为:其中,p(wi,wj)表示单词wi和wj在同一篇文档中共同出现的概率,p(w)表示单词w在文档集合中出现的概率,由包含该单词的文档频率去估计;根据PMI重新定义集合S(w)为:S(w)={wo|SR(w,wo)>ε,PMI(w,wo)≥η},其中η∈(‑∞,+∞),具体的取值视数据集而定;(3)定义模型的生成过程指定短文档集合中有K个主题和一个背景主题;一篇短文档只包含一个主题,一篇文档中的单词既由一个正常主题产生也由一个背景主题产生;具体的生成过程为:a)采样得到文档集合的主题分布:θ~Dirichlet(α);b)采样得到背景主题的单词分布:φB~Dirichlet(β);c)采样得到二元指示变量的分布:ψ~Dirichlet(γ);d)对于每个主题k,采样得到主题单词分布:φk~Dirichlet(β);e)对于文档集中的每篇文档d,首先采样得到该文档的主题;zd~Multinomial(θ),对于文档d中第i个单词,首先采样一个二元变量yd,i~Bernoulli(ψ),若yd,i=0,则该单词从主题zd产生,即wd,i~Multinomial(φzd),若yd,i=1,则该单词从背景主题B产生,即wd,i~Multinomial(φB);(4)模型参数求解模型参数的求解用到的方法是吉布斯采样,根据采样得到的样本来进行参数的最大后验估计;为了在提高主题的语义一致性,应用General Polya Urn模型的采样方法,增大语义相似度较高的单词在相关主题下的统计量,即单词w对应的主题被赋值为k时,则同时,对于wo∈S(w),其中定义为:根据生成过程,进行采样的隐变量是z与y,而隐变量φB、φ1,...,k、θ和ψ通过最大后验估计得到;对于文档d,其主题z的采样公式为:其中α、β为Dirichlet分布中的超参数,V为单词表的大小,为单词w在主题k下的统计量,为主题k关于所有单词的统计量,nk为主题为k的文本数目,下标‑d表示在计算当前统计量时,文档d不会被考虑进去,得到样本z之后通过最大后验估计得到每个主题关于单词的分布:
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连理工大学,未经大连理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810124600.7/,转载请声明来源钻瓜专利网。