[发明专利]短文本主题识别方法和系统在审
申请号: | 201910311522.6 | 申请日: | 2019-04-18 |
公开(公告)号: | CN110046228A | 公开(公告)日: | 2019-07-23 |
发明(设计)人: | 刘业政;钱洋;陶丹丹;姜元春;毕文亮;孙见山;孙春华;陈夏雨;凌海峰 | 申请(专利权)人: | 合肥工业大学 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/35;G06F17/27 |
代理公司: | 北京久诚知识产权代理事务所(特殊普通合伙) 11542 | 代理人: | 余罡 |
地址: | 230009 安*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语料 混合模型 特征向量 短文本 构建 参数推断 主题模型 主题识别 数据处理技术 后验分布 有效缓解 主题分布 数据集 稀疏性 文档 单词 | ||
本发明提供一种短文本主题识别方法和系统,涉及数据处理技术领域。本发明包括以下步骤:S1、获取第一语料集和第二语料集,所述第一语料集为待处理的短文本数据集,所述第二语料集为辅助语料集;S2、基于所述第二语料集上单词得到隐特征向量,基于所述第一语料集构建狄利克雷过程混合模型;S3、基于所述隐特征向量和所述狄利克雷过程混合模型构建非参主题模型;S4、对所述非参主题模型的主题后验分布进行参数推断;S5、基于参数推断识别出第一语料集中主题数量,同时得到第一语料集中文档‑主题分布以及主题‑词分布。本发明通构建狄利克雷过程混合模型以及引进词的隐特征向量表示,能有效缓解稀疏性问题,从而提高短文本主题识别的准确性。
技术领域
本发明涉及数据处理技术领域,具体涉及一种短文本主题识别方法和系统。
背景技术
随着互联网技术的飞速发展,人们越来越多的通过各种网络平台发表自己的观点或意见。例如,用户可以通过介绍影视剧的网站对电影或电视剧作品发表影评或剧评,还可以通过网络购物平台对购买或使用过的商品发表商品评价,也可以通过意见反馈渠道向提供服务或应用的运营商提出意见建议等。由于这些评论大多只是进行片断性的描述说明,其所包括的文字内容较少,因此均可以被看作是短文本数据。
近年来,国内外专家学者对短文本主题识别算法展开了深入研究,提出了诸多短文本主题识别算法,目前,主题模型(TopicModel)成为短文本挖掘领域的热点,它能够发现文档-词语之间所蕴含的潜在语义关系(即主题),有效提高处理网络舆情中短文本语义信息的性能,其中运用较多的主题聚类模型为LDA(LantentDirichletAllocation,文档主题生成模型)。
然而,现实应用场景中,文本数据集存在明显的类分布不平衡问题,特别是短文本由于篇幅有限,词共现稀疏,对现有主题识别算法带来了挑战。
发明内容
(一)解决的技术问题
针对现有技术的不足,本发明提供了一种短文本主题识别方法和系统,解决了短文本词共现稀疏的问题。
(二)技术方案
为实现以上目的,本发明通过以下技术方案予以实现:
本发明提供一种短文本主题识别方法,该方法包括以下步骤:
S1、获取第一语料集和第二语料集,所述第一语料集为待处理的短文本数据集,所述第二语料集为辅助语料集;
S2、基于所述第二语料集上单词得到隐特征向量以及基于所述第一语料集构建狄利克雷过程混合模型;
S3、基于所述隐特征向量和所述狄利克雷过程混合模型构建非参主题模型;
S4、对所述非参主题模型的主题后验分布进行参数推断;
S5、基于参数推断识别出第一语料集中主题数量,同时得到第一语料集中文档-主题分布以及主题-词分布。
优选的,所述步骤S1还包括定义语料集中的相关变量,所述相关变量包括文档篇数、每篇文档包含的单词个数,所有文档中包含的不同单词的个数。
优选的,所述步骤S2具体包括以下步骤:
S201、获取第二语料集上单词的隐特征向量表示;
S202、根据所述语料集1,构造词对;
S203、基于所述词对构建狄利克雷过程混合模型,将所述词对分配到不同主题上。
优选的,所述步骤S201包括以下步骤:
S2011、定义Skip-gram模型的学习目标;
S2012、使用负采样算法对Skip-gram模型进行训练,得到单词的隐特征向量表示。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于合肥工业大学,未经合肥工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910311522.6/2.html,转载请声明来源钻瓜专利网。