[发明专利]一种基于词向量和上下文信息的短文本主题模型在审
申请号: | 201810124600.7 | 申请日: | 2018-02-07 |
公开(公告)号: | CN108415901A | 公开(公告)日: | 2018-08-17 |
发明(设计)人: | 梁文新;冯然;张宪超 | 申请(专利权)人: | 大连理工大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 大连理工大学专利中心 21200 | 代理人: | 温福雪;侯明远 |
地址: | 116024 辽*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 单词 短文本 词向量 上下文信息 语义一致性 背景主题 语义关系 主题模型 建模 训练集数据 训练数据集 语义 采样策略 语义联系 罐子 采样法 采样 求解 推导 文档 显式 噪声 过滤 概率 | ||
1.一种基于词向量和上下文信息的短文本主题模型,其特征在于,有效地利用词向量以及上下文信息来获取单词之间的语义相似度,并将语义相似度信息应用到吉布斯采样的过程中,增大主题的语义一致性:
(1)获取单词之间的语义相似度
从维基百科或谷歌新闻中训练词向量,得到训练数据中每个单词的向量表示,用向量之间的余弦相似度来表示两个单词之间的语义相关性;对于单词wi以及wj,对应的词向量为vi以及vj,则单词之间的语义相似度定义为:对于训练集中的每个单词,得到其语义相关单词的集合S(w),其定义为:S(w)={wo|SR(w,wo)>ε},其中ε的取值视数据集而定,其范围是ε∈[0,1];
(2)使用训练数据过滤单词间语义相似度信息
词向量是从大型数据集中训练得到的,其中包含的语义信息可能并不适用于训练数据,为了进一步包含训练数据的特征,使用点互信息PMI对得到的语义相似度信息进行过滤,单词wi和wj之间的PMI定义为:
其中,p(wi,wj)表示单词wi和wj在同一篇文档中共同出现的概率,p(w)表示单词w在文档集合中出现的概率,由包含该单词的文档频率去估计;根据PMI重新定义集合S(w)为:S(w)={wo|SR(w,wo)>ε,PMI(w,wo)≥η},其中η∈(-∞,+∞),具体的取值视数据集而定;
(3)定义模型的生成过程
指定短文档集合中有K个主题和一个背景主题;一篇短文档只包含一个主题,一篇文档中的单词既由一个正常主题产生也由一个背景主题产生;具体的生成过程为:
a)采样得到文档集合的主题分布:θ~Dirichlet(α);
b)采样得到背景主题的单词分布:φB~Dirichlet(β);
c)采样得到二元指示变量的分布:ψ~Dirichlet(γ);
d)对于每个主题k,采样得到主题单词分布:φk~Dirichlet(β);
e)对于文档集中的每篇文档d,首先采样得到该文档的主题;
zd~Multinomial(θ),对于文档d中第i个单词,首先采样一个二元变量
yd,i~Bernoulli(ψ),若yd,i=0,则该单词从主题zd产生,即
wd,i~Multinomial(φzd),若yd,i=1,则该单词从背景主题B产生,即
wd,i~Multinomial(φB);
(4)模型参数求解
模型参数的求解用到的方法是吉布斯采样,根据采样得到的样本来进行参数的最大后验估计;为了在提高主题的语义一致性,应用General Polya Urn模型的采样方法,增大语义相似度较高的单词在相关主题下的统计量,即单词w对应的主题被赋值为k时,则同时,对于wo∈S(w),其中定义为:
根据生成过程,进行采样的隐变量是z与y,而隐变量φB、φ1,...,k、θ和ψ通过最大后验估计得到;对于文档d,其主题z的采样公式为:
其中α、β为Dirichlet分布中的超参数,V为单词表的大小,为单词w在主题k下的统计量,为主题k关于所有单词的统计量,nk为主题为k的文本数目,下标-d表示在计算当前统计量时,文档d不会被考虑进去,得到样本z之后通过最大后验估计得到每个主题关于单词的分布:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连理工大学,未经大连理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810124600.7/1.html,转载请声明来源钻瓜专利网。