[发明专利]一种数据流主题特征提取方法、装置、设备及存储介质有效
申请号: | 201811641140.1 | 申请日: | 2018-12-29 |
公开(公告)号: | CN109726222B | 公开(公告)日: | 2023-06-13 |
发明(设计)人: | 杨璐;王猛 | 申请(专利权)人: | 苏州大学 |
主分类号: | G06F16/2455 | 分类号: | G06F16/2455;G06F16/242 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 罗满 |
地址: | 215137 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据流 主题 特征 提取 方法 装置 设备 存储 介质 | ||
1.一种数据流主题特征提取方法,基于在线LDA算法,其特征在于,包括:
将接收到的数据流按照到达时间顺序组织成若干批次语料,并确定当前待处理批次语料;
对所述待处理批次语料中包含的单词进行扫描识别,得到待处理单词;
将所述待处理单词与词汇表中的单词进行比对,判断所述待处理单词中是否包括所述词汇表中不存在的新单词;
如果有,将所述新单词添加至所述词汇表中,得到更新后的词汇表;
根据折棒构造为所述待处理单词分配各主题概率,得到初始主题概率,所述折棒构造的狄利克雷分布为二参数分布;
运行新LDA模型根据新词汇表对所述初始主题概率进行数据处理,得到各所述待处理单词的主题概率;其中,所述新LDA模型为基于置信传播框架,服从狄利克雷过程的LDA模型;
所述运行新LDA模型根据新词汇表对所述初始主题概率进行数据处理,得到各所述待处理单词的主题概率,包括:
根据新词汇表将所述初始主题概率代入公式2进行数据处理,得到各所述待处理单词的主题概率;
其中,所述公式2具体为:
μw,d(k)是文本d中单词w属于主题k的概率;是在主题k的单词分布中,除了文本d外其他所有文本中单词w的概率;是文本d中除了单词w外,其它单词属于主题k的计数;是在主题k的单词分布中,除了文本d中的单词w外,其他所有单词属于主题k的概率,其中,α、β是狄利克雷分布的参数。
2.如权利要求1所述的数据流主题特征提取方法,其特征在于,所述根据折棒构造为所述待处理单词分配各主题概率,得到初始主题概率,包括:
根据公式1为所述待处理单词分配各主题概率,得到初始主题概率;
其中,所述公式1具体为:
其中,LOC(w,k)是定位单词w在主题k的单次分布中的位置的函数,WORD(j,k)是主题k的单词分布中坐标为j的单词,φw(k)为主题k中,单词w对应的概率,Vw(k)为主题k的每个单词对应的φw(k)只对应一个折棒产生的权重系数,VWORD(j,k)(k)为主题k的单词分布中坐标为j的单词对应的一个折棒产生的权重系数。
3.一种数据流主题特征提取装置,基于在线LDA算法,其特征在于,包括:
语料确定单元,用于将接收到的数据流按照到达时间顺序组织成若干批次语料,并确定当前待处理批次语料;
单词识别单元,用于对所述待处理批次语料中包含的单词进行扫描识别,得到待处理单词;
比对单元,用于将所述待处理单词与词汇表中的单词进行比对,判断所述待处理单词中是否包括所述词汇表中不存在的新单词;
词汇表更新单元,用于当所述待处理单词中包括所述词汇表中不存在的新单词时,将所述新单词添加至所述词汇表中,得到更新后的词汇表;
折棒构造单元,用于根据折棒构造为所述待处理单词分配各主题概率,得到初始主题概率,所述折棒构造的狄利克雷分布为二参数分布;
LDA处理单元,用于运行LDA模型根据新词汇表对所述初始主题概率进行数据处理,得到各所述待处理单词的主题概率;其中,所述LDA模型为基于置信传播框架,服从狄利克雷过程的LDA模型;
所述LDA处理单元具体用于:
根据新词汇表将所述初始主题概率代入公式2进行数据处理,得到各所述待处理单词的主题概率;
其中,所述公式2具体为:
μw,d(k)是文本d中单词w属于主题k的概率;是在主题k的单词分布中,除了文本d外其他所有文本中单词w的概率;是文本d中除了单词w外,其它单词属于主题k的计数;是在主题k的单词分布中,除了文本d中的单词w外,其他所有单词属于主题k的概率,其中,α、β是狄利克雷分布的参数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州大学,未经苏州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811641140.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:数据管理方法、装置及终端设备
- 下一篇:一种数据流的关联方法及装置