[发明专利]一种基于在线反绎学习的流式数据分类方法及其实现装置在审
申请号: | 202110430304.1 | 申请日: | 2021-04-21 |
公开(公告)号: | CN113095423A | 公开(公告)日: | 2021-07-09 |
发明(设计)人: | 李宇峰;周志华;黄宇轩 | 申请(专利权)人: | 南京大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N5/02 |
代理公司: | 南京乐羽知行专利代理事务所(普通合伙) 32326 | 代理人: | 李玉平 |
地址: | 210023 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 在线 学习 数据 分类 方法 及其 实现 装置 | ||
1.一种基于在线反绎学习的流式数据分类方法,其特征在于,接收流式数据,通过将输入的流式数据放入当前学习器,从而获得对当前样本预测的伪标记;将预测得到的伪标记转化为伪事实,通过利用知识库和弱标记数据,执行反绎推理操作得到修改后的伪事实;最后,将修改后的伪事实转化为伪标记,对学习器进行更新;上述过程随着流式数据到来不断执行;通过在线反绎学习方法针对流式训练数据与知识库同时存在的情景,对弱标注或无标注数据进行分类。
2.根据权利要求1所述的基于在线反绎学习的流式数据分类方法,其特征在于,所述流式数据为无标记或弱监督标记的流式数据。
3.根据权利要求1所述的基于在线反绎学习的流式数据分类方法,其特征在于,伪标记预测过程为:取一个批次的流式数据,将所有输入样本放进学习器,获得对应的样本的伪标记作为输出。
4.根据权利要求1所述的基于在线反绎学习的流式数据分类方法,其特征在于,反绎推理标记过程为:通过将伪标记转化为伪事实输入知识库,利用逻辑演算验证伪事实与知识库是否一致;如果一致,则不对伪标记进行修改;如果不一致,则根据最小化不一致性的原则对伪事实进行修改,使得修改后的伪事实与知识库一致,并将其转化为伪标记返回给学习器。
5.根据权利要求1所述的基于在线反绎学习的流式数据分类方法,其特征在于,更新学习器过程:将反绎推理得到的伪标记当做真实标记,与当前批次的样本一起用于更新学习器。
6.根据权利要求1所述的基于在线反绎学习的流式数据分类方法,其特征在于,通过修改最少数量的伪事实,使得修改后的事实尽可能与知识库一致;当标记数量大于预设数量时,采用非梯度优化的方法进行搜索,当标记数量小于预设数量时,直接进行穷举搜索;寻找出错的标记位置的过程为:首先尝试寻找某一个伪标记对应的事实,并将其标注为可反绎,然后进行反绎推理得到修改后与知识库一致的伪事实;若不存在这样的事实,换言之,任意一个伪事实修改后都无法与知识库一致,则寻找某两个标记对应的伪事实,并将它们标注为可反绎并尝试推理,得到与知识库一致的伪标记;若仍不能与知识库一致,则继续增加可以修改的标记数量,直到找到能修改后与知识库一致的事实。
7.一种基于在线反绎学习的流式数据分类方法的实现装置,其特征在于,包括:一个处理器,以及与所述一个处理器耦合的存储器;所述存储器存储领域知识库和指令,当所述指令被所述一个处理器执行时,使得所述一个处理器执行上述的在线反绎学习的流式数据分类方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京大学,未经南京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110430304.1/1.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置