[发明专利]短文本聚类分析方法、装置和终端设备有效
申请号: | 201811517917.3 | 申请日: | 2018-12-12 |
公开(公告)号: | CN109299280B | 公开(公告)日: | 2020-09-29 |
发明(设计)人: | 吴迪;杨瑞欣;生龙;马建飞;黄竹韵;张梦甜;孙雷 | 申请(专利权)人: | 河北工程大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/289 |
代理公司: | 石家庄国为知识产权事务所 13120 | 代理人: | 高欣 |
地址: | 056038 河北*** | 国省代码: | 河北;13 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 聚类分析 方法 装置 终端设备 | ||
本发明适用于文本分析技术领域,提供了一种短文本聚类分析方法、装置和终端设备。该方法包括:获取待聚类的短文本数据集,并对短文本数据集进行预处理得到包括至少三种词性的初始词集;对初始词集进行特征提取得到包括主题特征词集和主题关联词集的特征词集;根据主题特征词集和主题关联词集的相关性确定预设个数的主题特征词和主题关联词,主题特征词与主题关联词一一对应组成知识对;将预设个数的知识对输入到LDA中进行聚类并确定该待聚类的短文本数据集的情感主题。本发明优化了文本分析算法,能够更准确地进行短文本的情感主题聚类,提高短文本聚类的效率。
技术领域
本发明属于文本分析技术领域,尤其涉及一种短文本聚类分析方法、装置和终端设备。
背景技术
随着网络的普及,以互联网为平台的微博、论坛、博客等聊天软件产生了海量带有主观情感色彩的短文本,这些短文本携带着大量的用户信息和数据信息。由于短文本具有语义稀疏和高维性等特点,亟需有效的短文本聚类算法对这些信息进行聚类分析,来提升针对短文本的聚类、情感分析、语义分析等在网络舆情领域的应用效果。
近年来,国内外专家学者对短文本聚类算法展开了深入研究,并提出了诸多短文本聚类算法,以实现短文本的聚类及其在网络舆情领域的应用。目前,主题模型(TopicModel)成为短文本挖掘领域的热点,它能够发现文档-词语之间所蕴含的潜在语义关系(即主题),有效提高处理网络舆情中短文本语义信息的性能,其中运用较多的主题聚类模型为LDA(Lantent Dirichlet Allocation,文档主题生成模型)。
然而,传统主题聚类方法对短文本的情感极性分析和主题知识对特征提取方面的能力欠佳,短文本的情感主题聚类准确率不高。
发明内容
有鉴于此,本发明实施例提供了一种短文本聚类分析方法、装置和终端设备,以解决现有技术中传统主题聚类方法进行短文本的情感主题聚类时,准确率不高的问题。
本发明实施例的第一方面提供了一种短文本聚类分析方法,包括:
获取待聚类的短文本数据集,并对所述短文本数据集进行预处理得到包括至少三种词性的初始词集;
对所述初始词集进行特征提取得到包括主题特征词集和主题关联词集的特征词集;
根据所述主题特征词集和所述主题关联词集的相关性确定预设个数的主题特征词和主题关联词,所述主题特征词与所述主题关联词一一对应组成知识对;
将所述预设个数的知识对输入到LDA中进行聚类并确定该待聚类的短文本数据集的情感主题。
可选的,所述对所述短文本数据集进行预处理得到包括至少三种词性的初始词集,包括:
将所述短文本数据集进行分词处理得到文本词集;
对所述文本词集进行过滤处理得到包括至少三种词性的主词集;
对所述主词集进行词性约束处理得到包括至少三种词性的初始词集。
可选的,所述对所述初始词集进行特征提取得到包括主题特征词集和主题关联词集的特征词集,包括:
根据TF-IDF(Term Frequency-Inverse Document Frequency,词频-逆文本频率指数)算法对所述初始词集进行特征提取得到包括主题特征词集和主题关联词集的特征词集。
可选的,所述特征词集包括与所述词性对应的至少三个特征词子集;
所述根据所述主题特征词集和所述主题关联词集的相关性确定预设个数的主题特征词和主题关联词,包括:
计算所述特征词子集中的每个词与其他特征词子集中的每个词之间的词共现度,并根据所述词共现度确定所述主题特征词集和所述主题关联词集;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河北工程大学,未经河北工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811517917.3/2.html,转载请声明来源钻瓜专利网。