[发明专利]短文本主题识别方法和系统在审

申请号：	201910311522.6	申请日：	2019-04-18
公开（公告）号：	CN110046228A	公开（公告）日：	2019-07-23
发明（设计）人：	刘业政;钱洋;陶丹丹;姜元春;毕文亮;孙见山;孙春华;陈夏雨;凌海峰	申请（专利权）人：	合肥工业大学
主分类号：	G06F16/33	分类号：	G06F16/33;G06F16/35;G06F17/27
代理公司：	北京久诚知识产权代理事务所(特殊普通合伙) 11542	代理人：	余罡
地址：	230009 安***	国省代码：	安徽;34
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	语料混合模型特征向量短文本构建参数推断主题模型主题识别数据处理技术后验分布有效缓解主题分布数据集稀疏性文档单词
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提供一种短文本主题识别方法和系统，涉及数据处理技术领域。本发明包括以下步骤：S1、获取第一语料集和第二语料集，所述第一语料集为待处理的短文本数据集，所述第二语料集为辅助语料集；S2、基于所述第二语料集上单词得到隐特征向量，基于所述第一语料集构建狄利克雷过程混合模型；S3、基于所述隐特征向量和所述狄利克雷过程混合模型构建非参主题模型；S4、对所述非参主题模型的主题后验分布进行参数推断；S5、基于参数推断识别出第一语料集中主题数量，同时得到第一语料集中文档‑主题分布以及主题‑词分布。本发明通构建狄利克雷过程混合模型以及引进词的隐特征向量表示，能有效缓解稀疏性问题，从而提高短文本主题识别的准确性。

技术领域

本发明涉及数据处理技术领域，具体涉及一种短文本主题识别方法和系统。

背景技术

随着互联网技术的飞速发展，人们越来越多的通过各种网络平台发表自己的观点或意见。例如，用户可以通过介绍影视剧的网站对电影或电视剧作品发表影评或剧评，还可以通过网络购物平台对购买或使用过的商品发表商品评价，也可以通过意见反馈渠道向提供服务或应用的运营商提出意见建议等。由于这些评论大多只是进行片断性的描述说明，其所包括的文字内容较少，因此均可以被看作是短文本数据。

近年来，国内外专家学者对短文本主题识别算法展开了深入研究，提出了诸多短文本主题识别算法，目前，主题模型(TopicModel)成为短文本挖掘领域的热点，它能够发现文档-词语之间所蕴含的潜在语义关系(即主题)，有效提高处理网络舆情中短文本语义信息的性能，其中运用较多的主题聚类模型为LDA(LantentDirichletAllocation，文档主题生成模型)。

然而，现实应用场景中，文本数据集存在明显的类分布不平衡问题，特别是短文本由于篇幅有限，词共现稀疏，对现有主题识别算法带来了挑战。

发明内容

(一)解决的技术问题

针对现有技术的不足，本发明提供了一种短文本主题识别方法和系统，解决了短文本词共现稀疏的问题。

(二)技术方案

为实现以上目的，本发明通过以下技术方案予以实现：

本发明提供一种短文本主题识别方法，该方法包括以下步骤：

S1、获取第一语料集和第二语料集，所述第一语料集为待处理的短文本数据集，所述第二语料集为辅助语料集；

S2、基于所述第二语料集上单词得到隐特征向量以及基于所述第一语料集构建狄利克雷过程混合模型；

S3、基于所述隐特征向量和所述狄利克雷过程混合模型构建非参主题模型；

S4、对所述非参主题模型的主题后验分布进行参数推断；

S5、基于参数推断识别出第一语料集中主题数量，同时得到第一语料集中文档-主题分布以及主题-词分布。