[发明专利]一种基于多样深层主题模型的文本分析方法在审
申请号: | 201910750551.2 | 申请日: | 2019-08-14 |
公开(公告)号: | CN112395413A | 公开(公告)日: | 2021-02-23 |
发明(设计)人: | 陈渤;陈文超;赵倩茹;刘应祺;刘宏伟 | 申请(专利权)人: | 西安电子科技大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35 |
代理公司: | 西安嘉思特知识产权代理事务所(普通合伙) 61230 | 代理人: | 张捷 |
地址: | 710071*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 多样 深层 主题 模型 文本 分析 方法 | ||
本发明公开了一种基于多样深层主题模型的文本分析方法,构建文本数据的训练样本集与测试样本集;根据训练样本集构建多样深层主题模型,并初始化多样深层主题模型的初始模型参数;根据训练样本集训练多样深层主题模型得到训练模型参数,并根据训练模型参数更新初始模型参数得到训练后多样深层主题模型;根据测试样本集训练训练后多样深层主题模型得到若干测试隐层特征;根据若干隐层特征对训练模型参数行可视化分析,得到若干文本主题;根据若干文本主题、训练样本集、测试隐层特征与测试后多样深层主题模型对文本数据进行分类。本发明可以全面反映文本数据特性,使得文本主题具备较好的可分性,文本分析能力高。
技术领域
本发明属于自然语言处理技术领域,具体涉及一种基于多样深层主题模型的文本分析方法。
背景技术
随着移动互联网与信息技术的飞速发展,大数据时代已然到来。在浩繁的网络中的海量数据亟待有效的处理与分析方法。尤其是文本类型的数据,往往包含着巨大的信息量,政府、企业与个人对于智能文本分析的需求日益增长,因此自然语言处理技术得以进一步发展。其中,主题模型作为一种文本挖掘方法,能够有效地提取文本特征,发现文本数据中潜在语义主题,被广泛应用于机器学习与数据挖掘领域的文本分析任务中,如文本聚类、热点挖掘、情感分析、信息检索、推荐系统等。目前,现有的主题模型主要都是基于一种经典的模型,即潜在狄利克雷分布(Latent Dirichlet Allocation,LDA),结合应用领域及其数据特性进行相应的扩展研究,提出了各种不同的主题模型。同时,吉布斯采样方法被广泛应用于主题模型的参数学习与变量推断。
现有方法存在不足之处:LDA主题模型不能用于提取深层语义特征主题,难以进行层次化文本分析,现有的深层主题模型虽然能够提取深层特征,但是提取出的高层主题多样性较差,对高层语义特征的表达能力有限,影响层次化特征提取效果,导致后续的文本分类等任务性能较差;并且,采用传统吉布斯采样方法对深层主题模型进行训练,其计算量较大、收敛速度较慢,现有收敛速度较快的改进吉布斯采样方法则不适用于需要进行在线训练的大数据场景,难以并行训练,实用性有限。
西安电子科技大学在其申请的专利文献“基于变分自编码模型的文本深度特征提取方法”(专利申请号201810758180.8,公开号109145288A)中公开了一种基于变分自编码模型的文本深度特征提取方法。该方法构建了可用于提取深层主题关键词的变分自编码推理模型,将输入文档作为训练数据和测试数据,提取两层主题关键词作为对应的文本深度特征提取结果。该方法存在的不足之处是,虽然可以提取出文本深层次特征,但是随着层数加深,提取出的主题关键词相似性较高、多样性较差,不具备较好的可分性,会影响后续的文本分析能力。
南京大学在其申请的专利文献“一种LDA主题模型优化采样方法”(专利申请号201810493178.2,公开号108763207A)中公开了一种LDA主题模型优化采样方法。该方法利用分解吉布斯采样公式、构建AliasTable和累积分布的方法,实现一次构建多次采样,提升了LDA主题模型训练学习的收敛速度。但是,该方法需要一次性输入文本数据进行采样以学习主题模型的参数,当数据量较大时,由于现在计算机硬件计算能力的限制,难以进行并行训练,不适于大数据场景,实用性有限。
发明内容
为了解决现有技术中存在的上述问题,本发明提供了一种基于多样深层主题模型的文本分析方法。本发明要解决的技术问题通过以下技术方案实现:
一种基于多样深层主题模型的文本分析方法,包括:
构建文本数据的训练样本集与测试样本集;
根据所述训练样本集构建多样深层主题模型,并初始化所述多样深层主题模型的初始模型参数;
根据所述训练样本集训练多样深层主题模型得到训练模型参数,并根据训练模型参数更新所述初始模型参数得到训练后多样深层主题模型;
根据所述测试样本集训练所述训练后多样深层主题模型得到若干测试隐层特征;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安电子科技大学,未经西安电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910750551.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种采用分隔壁精馏塔分离醋酸加氢制乙醇产物的方法
- 下一篇:智能电饭煲