[发明专利]一种利用局部嵌入话题建模的文本表示方法有效

专利信息
申请号: 201710332228.4 申请日: 2017-05-12
公开(公告)号: CN107220311B 公开(公告)日: 2020-12-08
发明(设计)人: 罗森林;刘望桐;潘丽敏;毛炎颖;魏超 申请(专利权)人: 北京理工大学
主分类号: G06F16/33 分类号: G06F16/33;G06F16/35
代理公司: 暂无信息 代理人: 暂无信息
地址: 100081 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 利用 局部 嵌入 话题 建模 文本 表示 方法
【说明书】:

发明涉及一种利用局部嵌入话题建模的文本表示方法,属于计算机科学与信息检索技术领域。在该方法中,根据文本在词空间的欧氏距离选取近邻集,构造局部加权正则项,把正则项加入传统的自编码网络进行训练获得模型,进而构造一个显示映射函数,并最终利用编码网络抽取样本外文档的向量表示。本发明引入局部加权正则项,有效地保持文本所在空间的内部固有几何结构。此外,本发明生成了一个观测空间和低维流形之间的显式嵌入映射,提供了一种从样本外文本提取嵌入向量表示的简便方法。

技术领域

本发明涉及一种利用局部嵌入话题建模的文本表示方法,属于计算机科 学与信息检索技术领域。

背景技术

近年来,网络的快速发展使得文本信息比例急速增长,这对信息检索技 术提出了更高的要求。文本表示作为信息检索的关键技术对于提升信息的有 效获取具有重要意义。文本表示是将包含大量字符,非结构化的文档集合, 转化为半结构或结构化的数据结构,进而方便计算机利用聚类,分类技术进 行信息检索。经典的文本表示方法是空间向量模型(VSM),它将组成文档 集合的所有词汇作为特征,并根据每篇文本中每个特征词的词频信息组成一 个向量来表示该文本。但是这种表示由于孤立地看待每个词汇,忽略了词的 多义和歧义性,因为在实际的信息检索中效果有限。

针对该问题的改进工作包括概率潜层语义分析(PLSA)和隐性狄利克雷 分布(LDA)。它们是一种话题模型,即假设每个文本是由一系列潜在话题 按照一定比例混合生成,其中,每个话题又是通过词语的某种概率分布决定。 和PLSA不同的是,LDA将文本的话题混合比例假设为狄利克雷随机变量来 进行建模,这使得LDA能够定义一种文本级别的概率生成模型,可以有效 解决样本外文本话题建模问题。但是,它们是将文本空间看作欧式空间来挖 掘隐藏话题的,这种做法并没有考虑文档所在的空间的内部固有几何结构, 也没有考虑如何提取样本外文本的话题表示。对于利用局部嵌入话题建模的 文本表示方法,主要解决:①保持文本所在的空间的内部固有几何结构,以 区分文本在词语概率分布上的差异性;②计算观察结果和低维流形之间的嵌 入映射y=fΘ(x)。

基于PLSA的话题模型包括:拉普拉斯概率潜层语义索引(LapPLSI)、 局部连续话题建模(LTM),和区别性话题模型(DTM)。

在PLSA中,n(di,wj)表示单词wj出现在文本di中的次数,n(di,wj)与 K个隐含话题变量{z1,z2,···,zK}中的一个变量有关。形式上,这个生成过程 被描述如下:选择一个概率为P(di)的文本di;选择一个概率为P(zk|di)的潜层 话题(类)zk;产生一个概率为P(wj|zk)的单词wj

1.拉普拉斯概率潜层语义索引(LapPLSI):

它的目标是最大化正则对数似然函数,如下所示:

λ是正则化参数,W是一个测量基于词共现的文本对的局部相似度的 N×N矩阵。从这些数据点的最邻近曲线,得出边界权重矩阵W,定义 如下:

Np(di)表示这组p的最邻近文本di.

2.局部连续话题建模(LTM):

LTM采用KL散度作为一个正则项,等式定义如下:

矩阵W和上面的相同,概率分布P(z|di)和P(z|dj)的KL散度是:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学,未经北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201710332228.4/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top