[发明专利]短文本主题识别方法和系统有效
申请号: | 201911116869.1 | 申请日: | 2019-11-15 |
公开(公告)号: | CN111090995B | 公开(公告)日: | 2023-03-31 |
发明(设计)人: | 姜元春;李怡;钱洋;刘业政;梁瑞成;孙见山;朱婷婷;汪文娟;刘畅;刘心语 | 申请(专利权)人: | 合肥工业大学 |
主分类号: | G06F40/284 | 分类号: | G06F40/284;G06F40/258;G06F16/31;G06V30/19 |
代理公司: | 北京久诚知识产权代理事务所(特殊普通合伙) 11542 | 代理人: | 余罡 |
地址: | 230009 安*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 主题 识别 方法 系统 | ||
本发明提供一种短文本主题识别方法和系统,涉及数据处理领域。本发明首先基于预训练的主题识别模型,获取待测短文本集合的短文本‑主题分布和主题‑词分布,词包括背景词和主题词;然后基于短文本‑主题分布和主题‑词分布,计算各主题词在短文本下所占权重;最后基于主题词在短文本下所占权重,选取焦点主题。本发明将短文本中词的做了区分,认为词包括背景词和主题词,除去在主题识别过程中背景词的影响,提高主题识别的准确率,从而准确的识别出焦点主题,为后续的个性化营销、推荐和信息检索等实际场景提供准确的数据支持。
技术领域
本发明涉及数据处理技术,具体涉及一种短文本主题识别方法和系统。
背景技术
随着社交媒体和移动应用的快速发展,如微博、Facebook、Twitter和学术网站等正在成为非常受欢迎的社交平台。这些平台往往包含了大量的在线评论数据,这些数据通常内容较少可以被看作是短文本数据。但这类数据数量较多,并且普遍存在随意性语言这对分析该文本对应的主题影响很大。面对这些可用的网络数据,准确发现其对应的主题,对于个性化营销、推荐和信息检索等实际场景具有很高的应用价值。
由于大量在线数据的爆发式增长,近年来的研究主要集中在利用大规模的在线数据来推断在线情报,例如,准确理解市场结构对于许多营销管理实践是至关重要的,在真实的市场中,发现可替代的产品可以用指导定价决策、有针对性的广告政策和产品定位。为了降低在线评论这种短文本数据的稀疏性,解决文本聚类问题,提出的T-LDA模型,考虑到短文本数据的特点,检测数据集中的异常值,获取每个集群关注的焦点主题。
然而,模型忽略了背景词(背景词类似于介词,出现频率高,并且与文章主题关联度较低)在主题识别过程中的影响,导致模型不能准确地识别出焦点主题。
发明内容
(一)解决的技术问题
针对现有技术的不足,本发明提供了一种短文本主题识别方法和系统,解决了现有技术不能准确的识别出焦点主题的技术问题。
(二)技术方案
为实现以上目的,本发明通过以下技术方案予以实现:
本发明还提供一种短文本主题识别方法,所述方法由计算机执行,包括以下步骤:
A1、基于预训练的主题识别模型,获取待测短文本集合的短文本-主题分布和主题-词分布,所述词包括背景词和主题词;
A2、基于所述短文本-主题分布和主题-词分布,计算各主题词在短文本下所占权重;
A3、基于所述主题词在短文本下所占权重,选取焦点主题;
其中,所述主题识别模型的预训练包括以下步骤:
S1、获取短文本,构建短文本集合D;
S2、确定所述短文本集合D中的主题个数K;
S3、基于有参贝叶斯模型、所述主题数量K和所述短文本集合D获取短文本-主题分布、主题-主题词分布、主题-背景词分布,完成所述主题识别模型的训练。
优选的,所述S1具体包括:
获取n条短文本构成的短文本集合D,记为|M|表示短文本集合D中的短文本数量,去除所述短文本集合D中所有停用词;建立向量/1≤i≤n,表示集合D中的第m条短文本;Dmn表示第m条短文本中的第n个词,Nm表示第m条短文本中的单词个数,V表示短文本M中的不同词的数量,并且用v∈{1,2,...,V}作为不同单词的索引。
优选的,所述S3具体包括:
S301、对于短文本集合D中的K个主题,获取主题-词分布,按照公式(1)进行抽样,从单词V的狄利克雷分布β中抽取主题k∈{1,2,...,K}的主题词分布和背景词分布/
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于合肥工业大学,未经合肥工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911116869.1/2.html,转载请声明来源钻瓜专利网。