[发明专利]一种数据流主题特征提取方法、装置、设备及存储介质有效
申请号: | 201811641140.1 | 申请日: | 2018-12-29 |
公开(公告)号: | CN109726222B | 公开(公告)日: | 2023-06-13 |
发明(设计)人: | 杨璐;王猛 | 申请(专利权)人: | 苏州大学 |
主分类号: | G06F16/2455 | 分类号: | G06F16/2455;G06F16/242 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 罗满 |
地址: | 215137 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明所提供的数据流主题特征提取方法通过使用词汇表的单词数目不固定的LDA模型,通过使其主题单词分布服从原子数目不固定的狄利克雷过程,而非原子数目固定的狄利克雷分布,使得新模型在遇到未在词汇表中出现的新单词时可以将其加入到词汇表中并继续算法的执行,通过不断地遇到并添加新的单词,实现信息充分利用的同时没有增加内存处理压力,使LDA模型中的词汇表与需要处理的语料更加贴合,提升了模型的精度,增强了在线LDA算法处理数据流的能力。本发明还公开了一种数据流主题特征提取装置、设备及一种可读存储介质,具有上述有益效果。 | ||
搜索关键词: | 一种 数据流 主题 特征 提取 方法 装置 设备 存储 介质 | ||
【主权项】:
1.一种数据流主题特征提取方法,基于在线LDA算法,其特征在于,包括:将接收到的数据流按照到达时间顺序组织成若干批次语料,并确定当前待处理批次语料;对所述待处理批次语料中包含的单词进行扫描识别,得到待处理单词;将所述待处理单词与词汇表中的单词进行比对,判断所述待处理单词中是否包括所述词汇表中不存在的新单词;如果有,将所述新单词添加至所述词汇表中,得到更新后的词汇表;根据折棒构造为所述待处理单词分配各主题概率,得到初始主题概率;运行新LDA模型根据新词汇表对所述初始主题概率进行数据处理,得到各所述待处理单词的主题概率;其中,所述新LDA模型为基于置信传播框架,服从狄利克雷过程的LDA模型。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州大学,未经苏州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201811641140.1/,转载请声明来源钻瓜专利网。
- 上一篇:数据管理方法、装置及终端设备
- 下一篇:一种数据流的关联方法及装置