[发明专利]一种基于词向量和上下文信息的短文本主题模型在审
申请号: | 201810124600.7 | 申请日: | 2018-02-07 |
公开(公告)号: | CN108415901A | 公开(公告)日: | 2018-08-17 |
发明(设计)人: | 梁文新;冯然;张宪超 | 申请(专利权)人: | 大连理工大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 大连理工大学专利中心 21200 | 代理人: | 温福雪;侯明远 |
地址: | 116024 辽*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 单词 短文本 词向量 上下文信息 语义一致性 背景主题 语义关系 主题模型 建模 训练集数据 训练数据集 语义 采样策略 语义联系 罐子 采样法 采样 求解 推导 文档 显式 噪声 过滤 概率 | ||
本发明公开了一种基于词向量和上下文信息的短文本主题模型,从词向量中提取单词之间的语义关系,通过显式的获取这种语义关系来弥补了短文本数据单词共现性不足的缺点,通过训练集数据进一步过滤单词之间语义联系,使其更加适用于训练数据集。在生成过程中加入背景主题,通过背景主题来对文档中噪声词进行建模。在模型推导中使用吉布斯采样法对模型进行求解,并在采样的过程中使用广义波利亚罐子模型的采样策略增加语义相关性较大的单词在相关主题下的概率,通过这种方式,使得主题下单词的语义一致性得到了较大的提高。一系列实验表明本发明提出的方法能够较大程度上提高主题的语义一致性,为短文本主题建模提供了一种新方法。
技术领域
本发明属于自然语言处理领域,涉及一种基于词向量和上下文信息的短文本主题模型
背景技术
随着社交网络的发展,短文本已经成为了互联网信息传播的主要途径之一。短文本数据中蕴含着丰富的信息,从短文本数据中提取主题信息是非常有价值的。概率主题模型是一种从文档数据集中提取主题信息的有效方法,主题模型是一种无监督的学习方法,模型的输入为文档数据,输出为文档数据中包含的主题信息,每个主题可以看作是单词的分布,该主题下出现概率较高的单词可以反映这个主题的语义特征,比如“教育”,“大学”,“学生”等单词在一个主题下的概率较高,则该主题所反映的是一个“教育类”的主题。主题模型之所以有效在很大程度上依赖于单词的共现信息,即两个单词在同一篇文档中出现的概率越高,则同属于一个主题的概率就越大。经典的主题模型如LDA和PLSA 等模型已经在大规模数据中取得了较好的效果。
由于在短文本数据中,单词共现性比较稀疏,传统的主题模型并不能有效地从短文本中提取高质量的主题,得到主题的语义一致性并不高。为了从短文本数据集中提取高质量的主题,我们希望能充分利用外部知识以及训练数据本身的特征来获取单词的语义信息来弥补单词共现信息的不足,并建模的过程中进一步应用语义信息来提高主题的语义一致性。
发明内容
本发明在现有研究的基础上,提出了一种基于词向量和上下文信息的短文本主题模型,利用单词的语义信息来弥补单词共现性不足造成的影响,提高了语义相关的单词在同一主题下出现的概率。同时,在模型中引入了背景主题来捕捉噪声词信息,可以进一步提高每个主题下单词的语义一致性。
本发明的技术方案:
一种基于词向量和上下文信息的短文本主题模型,步骤如下:
(1)语义信息提取阶段
首先,从大规模数据集中训练词向量,根据词向量得到训练集中两个单词之间的语义相似度,进一步为训练集中单词获取语义相关单词的集合。
(2)语义信息过滤阶段
因为词向量是从大型文本数据中训练得到的,所以单词之间的语义相关性并不一定适用于训练数据,所以需要根据训练数据的信息对单词间的语义相关性进行进一步过滤。
(3)生成过程建模阶段
参考DMM模型,定义模型的生成过程。假设每篇短文档只有一个主题,文档中的每个单词是由该主题或者一个背景主题产生的。文档中的每个单词关联一个二元的指示变量,当该变量的值为0时,说明该单词来自一个正常主题,若该变量的值为1,则说明该单词来自背景主题,该单词是一个背景单词。
(4)模型参数求解阶段
根据生成过程,使用吉布斯采样对模型中的隐变量进行采样,模型的参数可以根据极大后验估计求出。应用广义波利亚罐子模型(General Polya Urn model)增加语义相关的单词同一主题下出现的统计量,根据样本进行极大后验估计之后,每个主题下语义相关的单词出现概率会增大,所以主题的语义一致性会提高。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连理工大学,未经大连理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810124600.7/2.html,转载请声明来源钻瓜专利网。