[发明专利]一种数据流主题特征提取方法、装置、设备及存储介质有效
申请号: | 201811641140.1 | 申请日: | 2018-12-29 |
公开(公告)号: | CN109726222B | 公开(公告)日: | 2023-06-13 |
发明(设计)人: | 杨璐;王猛 | 申请(专利权)人: | 苏州大学 |
主分类号: | G06F16/2455 | 分类号: | G06F16/2455;G06F16/242 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 罗满 |
地址: | 215137 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据流 主题 特征 提取 方法 装置 设备 存储 介质 | ||
本发明所提供的数据流主题特征提取方法通过使用词汇表的单词数目不固定的LDA模型,通过使其主题单词分布服从原子数目不固定的狄利克雷过程,而非原子数目固定的狄利克雷分布,使得新模型在遇到未在词汇表中出现的新单词时可以将其加入到词汇表中并继续算法的执行,通过不断地遇到并添加新的单词,实现信息充分利用的同时没有增加内存处理压力,使LDA模型中的词汇表与需要处理的语料更加贴合,提升了模型的精度,增强了在线LDA算法处理数据流的能力。本发明还公开了一种数据流主题特征提取装置、设备及一种可读存储介质,具有上述有益效果。
技术领域
本发明涉及文本数据处理技术领域,特别涉及一种数据流主题特征提取方法、装置、设备及一种可读存储介质。
背景技术
主题模型是一种可以从海量数据中找出用户所需要的信息的技术,其通过分析语料中的每个文档,统计文档中的词语,并根据统计得到的信息来推断当前文档中含有哪些主题,以及每个主题所占的比例是多少。
LDA(Latent Dirichlet Allocation)是当前主流的主题模型,在文本挖掘领域包括文本主题识别、文本分类以及文本相似度计算方面都有应用。针对各种应用场景,产生了各种基于LDA主题模型算法的变种算法。其中,用于处理数据流的一类LDA主题模型称为在线LDA(Online LDA)算法,如:在线吉布斯采样算法(Online Gibbs Sampling,OGS)、在线变分推断算法(Online Variational Inference,OVB)、在线置信传播算法(Online BeliefPropagation,OBP)等。
在线LDA算法的执行基于词汇表,在算法执行之前,需要扫描全部的语料,将语料中出现的所有单词组织成词汇表后,算法才可以开始执行,并且在线LDA算法在执行的过程中无法增添新的单词到词汇表中。因此在线LDA算法只能处理数据流中存在于词汇表中的单词,无法处理数据流中不存在于词汇表中的单词,这样会造成信息损失,而如若使用单词量很大的词汇表来覆盖数据流中可能会出现的所有单词,则会造成内存负担过重。
因此,如何实现信息充分利用的同时减轻内存处理压力,是本领域技术人员需要解决的技术问题。
发明内容
本发明的目的是提供一种数据流主题特征提取方法,该方法利用使其主题单词分布服从原子数目不固定的狄利克雷过程,可以实现对新单词的处理,从而实现语料的充分利用,同时只添加新的单词至词汇表中,处理压力改变较小,增强了在线LDA算法处理数据流的能力;本发明的另一目的是提供一种数据流主题特征提取装置、设备及一种可读存储介质,具有上述有益效果。
为解决上述技术问题,本发明提供一种数据流主题特征提取方法,包括:
基于在线LDA算法,其特征在于,包括:
将接收到的数据流按照到达时间顺序组织成若干批次语料,并确定当前待处理批次语料;
对所述待处理批次语料中包含的单词进行扫描识别,得到待处理单词;
将所述待处理单词与词汇表中的单词进行比对,判断所述待处理单词中是否包括所述词汇表中不存在的新单词;
如果有,将所述新单词添加至所述词汇表中,得到更新后的词汇表;
根据折棒构造为所述待处理单词分配各主题概率,得到初始主题概率;
运行新LDA模型根据新词汇表对所述初始主题概率进行数据处理,得到各所述待处理单词的主题概率;其中,所述新LDA模型为基于置信传播框架,服从狄利克雷过程的LDA模型。
优选地,所述根据折棒构造为所述待处理单词分配各主题概率,得到初始主题概率,包括:
根据公式1为所述待处理单词分配各主题概率,得到初始主题概率;
其中,所述公式1具体为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州大学,未经苏州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811641140.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:数据管理方法、装置及终端设备
- 下一篇:一种数据流的关联方法及装置