[发明专利]基于狄利克雷多项混合模型的长文本辅助短文本的文本聚类方法有效
申请号: | 201710504980.2 | 申请日: | 2017-06-28 |
公开(公告)号: | CN107798043B | 公开(公告)日: | 2022-05-03 |
发明(设计)人: | 黄瑞章;闫盈盈;马灿;徐立洋;丁志远;王瑞;黄庭;刘博伟 | 申请(专利权)人: | 贵州大学;贵州耕云科技有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35 |
代理公司: | 北京睿智保诚专利代理事务所(普通合伙) 11732 | 代理人: | 周新楣 |
地址: | 550025 贵州省贵*** | 国省代码: | 贵州;52 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于狄利克雷多项混合模型的长文本辅助短文本的文本聚类方法。针对短文本的特征稀疏问题,本发明提出了主题相关长文本辅助短文本的思想,辅助的基础是长文本与短文本共享相同的主题‑词语分配。为了更好地提升聚类效果,该发明能够自动判断长文本中的有用词和噪音词,利用长文本中高质量的有用词与短文本集合进行文本聚类。此外,本发明能够自动识别文本集类的数目,改进了传统文本集类数目需要人为提前给定的情况。 | ||
搜索关键词: | 基于 狄利克雷 多项 混合 模型 文本 辅助 方法 | ||
【主权项】:
一种基于狄利克雷多项混合模型的长文本辅助短文本的文本聚类方法,其特征在于,包括如下步骤:1)将主题相关的长文本集与短文本集进行文本预处理:进行分词,去停用词、低频词及标点数字;2)基于狄利克雷多项混合模型构建主题模型:构建得到主题模型,主题模型如图2所示;图2中,α表示狄利克雷分布的参数,是一个向量,维度等于主题的个数;β,λ表示狄利克雷分布的参数,维度等于语料库词汇总数;ω表示伯努利分布的参数,表示一个词为有用词的概率;θL表示长文本集的主题分布;θS短文本集的主题分布;短文本集词语与长文本集有用词形成的主题‑词语分布;噪音词的词语分布,模型假设长文本中的噪音词来源于一个主题;zl表示从θL中采样的长文本和短文本的主题;zs表示从θS中采样的长文本和短文本的主题;γ伯努利分布的结果,如果γ=1为该词为有用词,如果γ=0为该词为噪音词;xl,xs分别表示一篇长文本,短文本;L长文本总篇数;S短文本总篇数;K初始化时主题的总数目;3)模型的参数估计:基于主题模型(1),利用Blocked Gibbs采样算法,采样长短文本共同的词‑主题分布,长文本集的主题分布、噪音词分布,以及短文本的主题分布;4)根据主题进行聚类:将Blocked Gibbs采样算法运行1000‑2000次后,得到目标短文本的主题分配情况并进行文本聚类。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于贵州大学;贵州耕云科技有限公司,未经贵州大学;贵州耕云科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710504980.2/,转载请声明来源钻瓜专利网。