[发明专利]一种基于词共现网络的主题建模方法有效

专利信息
申请号: 202010391845.3 申请日: 2020-05-11
公开(公告)号: CN111723563B 公开(公告)日: 2023-09-26
发明(设计)人: 蔡毅;朱冰山 申请(专利权)人: 华南理工大学
主分类号: G06F40/237 分类号: G06F40/237;G06F40/30
代理公司: 广州市华学知识产权代理有限公司 44245 代理人: 李斌
地址: 510640 广*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 词共现 网络 主题 建模 方法
【说明书】:

发明公开了一种基于词共现网络的主题建模方法,包括步骤:根据给定的语料库或者文本集合构建词共现网络;根据得到的词共现网络构造出一个新的文档集合;将得到的新的文档集合输入到一个标准主题模型LDA的Gibbs sampling算法中,得到新文档集合对应的文档‑主题矩阵和主题‑词矩阵。本发明不需要依赖任何的外部知识,避免了收集额外知识的精力,仅仅是利用数据集本身包含的信息去改善主题模型的结果。

技术领域

本发明涉及自然语言处理技术和文本挖掘技术领域,尤其涉及一种基于词共现网络的主题建模方法。

背景技术

如何在大量的文本中获取到自己所需的信息是在文本挖掘中的一个重要问题。特别是现在互联网的快速发展使得网上拥有着大量的短文本,如微博、在线评论等。这些文本的特点是数量巨大、文本长度小且带有一定的噪音。面对大量的文本,如果人工去逐一判断辨别每篇文档包含的内容,将是耗时费力的一项工作,如何利用计算机辅助人类去更好地去吸收存在于大量文本中包含的信息呢?主题模型为我们提供了一种解决思路。主题模型是一种发掘文本中隐含的结构信息的有效方法,自从被提出来以后大量地运用在信息检索、文档相似度判断、语义消歧、文档摘要等自然语言处理领域中。主题模型依赖于文档级别的词共现信息发现主题,在长文本中工作良好,但是应用到短文本上的效果就急剧下降,原因在于短文本无法提供足够的上下文信息,使得词与词之间的共现信息比较稀疏,降低了主题模型的效果。

近年来有很多研究是关于改善主题模型在短文本上的性能表现的。大体分为三个类别:一是将多个短文本合并成一个长文本,再运行主题模型算法。如在微博这一类的数据中,可以根据发表微博的用户、时间、地点或者标签等信息将多个短文本合并。这种做法的缺陷是并不是所有数据都会有相应的信息,即使有,也会比较少,如某些用户仅仅发表一条微博,最终缓解短文本的稀疏性问题的能力有限;二是利用外部知识去迫使原来没有共同出现过或者共同出现次数较少但是语义相近的两个词分配到同一个主题的概率变高,如利用WordNet知识库抽取出词的同义词集,将这些同义词集的信息编码到模型中,改善模型的效果;这种方法的缺点是需要找到合适的外部知识库抽取需要的词与词之间的关系信息;第三类则是直接根据数据集本身的特性改变模型的假设,如有人提出直接对词与词之间的共现进行建模,提出了BTM模型,该模型将原来的数据集转换成一个由biterm组成的集合,biterm是文档中不同的两个词组成的集合,每个biterm中的词共享一个主题,并假设每个短文本只有一个主题。该方法的缺陷是短文本仅有一个主题的假设太强,且没有区分一个biterm中两个词对主题的重要性程度。

发明内容

本发明的目的在于克服现有技术的不足,提供一种基于词共现网络的主题建模方法。

本发明的目的能够通过以下技术方案实现:

一种基于词共现网络的主题建模方法,包括步骤:

根据给定的语料库或者文本集合构建词共现网络;

根据得到的词共现网络构造出一个新的文档集合,文档集合中的每篇文档由词共现网络中的某个节点对应的一个邻域内的节点组成;

将得到的新的文档集合输入到一个标准主题模型LDA的Gibbs sampling算法中,得到新文档集合对应的文档-主题矩阵和主题-词矩阵。

本发明相较于现有技术,具有以下的有益效果:

1、本发明在运行主题模型算法之前构建一个词共现网络,根据词共现网络对原始文档集合的结构进行重新组织,达到增强语料库中词与词之间的共现信息的作用,并根据主题模型LDA的Gibbs sampling算法对新构造出来的文档集合进行主题发掘,得到文档集合的隐藏结构信息。本发明不需要依赖额外的外部知识,不需要启发式地将多个短文本合并成一个长文本,对于任意的数据集都适用,仅仅是利用数据集本身包含的信息去改善主题模型LDA的结果,避免了收集额外知识的精力。

附图说明

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010391845.3/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top