[发明专利]一种交互式无监督标签分类系统、方法、介质、终端有效
申请号: | 202110364666.5 | 申请日: | 2021-04-06 |
公开(公告)号: | CN112800151B | 公开(公告)日: | 2021-08-13 |
发明(设计)人: | 杨万征;蔡超;程国艮 | 申请(专利权)人: | 中译语通科技股份有限公司 |
主分类号: | G06F16/28 | 分类号: | G06F16/28;G06F16/2457;G06F16/242;G06F40/30 |
代理公司: | 北京万贝专利代理事务所(特殊普通合伙) 11520 | 代理人: | 马红 |
地址: | 100131 北京市石景山区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 交互式 监督 标签 分类 系统 方法 介质 终端 | ||
本发明属于数据处理技术领域,公开了一种交互式无监督标签分类系统、方法、介质、终端,利用伪标签及预训练模型,对数据集进行无监督分类,通过增加拓展词汇,进行辅助分类,以及在所述预训练模型中增加负节点或负样本排除负样本作用范围内的空间。本发明满足了不同业务场景下对数据集按照不同标签体系进行划分的业务需求,提出一种通用的数据处理流程,能够解决无监督或弱监督的标签分类任务。本发明主要采用伪标签学习技术,可解决冷启用问题;减少标注数据的需求;可实时调整标签体系结构;可人工干预;可视化标签体系关系;不但可增加正样本或正节点,同时可增加负样本或父节点。
技术领域
本发明属于数据处理技术领域,尤其涉及一种交互式无监督标签分类系统、方法、介质、终端。
背景技术
目前,伴随电子化、信息化时代的普及,各种类型文献蜂拥而至,如:新闻、论文、专利、期刊等,每种类型文本均有其特有的适用领域及结构特点,通过单一标签体系,无法同时对各种类型文献进行合理分类,需要使用多种标签体系才可以,即使对于单一类型文体,仅通过单一标签体系也无法进行全面表达,以专利为例,仅通过单一IPC分类虽然可以表达其技术领域,但对其应用领域的表达能力是不足的,为满足各类应用场景,需要使用多种标签体系,在某些特定场景下,需求方也会提出其关注或所需的标签体系。
尽管机器学习在标签分类问题上已经取得了显著成功,但往往需要大量的标注样本,在相对固定、种类较少的标签体系下,通过标注人员构造训练集方能适用,但面对标签体系灵活多变、标签类别繁多的情况,往往无法适用。以一个7000维的标签体系为例,每个标签需要标注100个样本,面对的便是70万的标注数据,且如上述所说,一个标签体系往往适不足以满足需求的,需要同时存在多个标签体系,在项目启动之初,对标签分类的精度并没有太多要求,但却投入如此之大的标注精力往往适不被采纳的,且有监督的机器学习分类目前仍然偏向于黑盒,无法进行显式的人工干预。
综上所述,需要寻求一种灵活的技术手段,适应多变的标签体系,减少系统对标注样本的需求,且可人工显式干预。
通过上述分析,现有技术存在的问题及缺陷为:
(1)现有技术中,无法适应灵活多变的标签体系。
(2)现有技术中,对人工干预不够友善。
(3)现有技术中,对标签的控制能力不强。
解决以上问题及缺陷的难度为:需要解决无标注数据问题;需要算法能够接受用户的干预行为。
解决以上问题及缺陷的意义为:解决项目冷启动问题,降低成本;对程序结果输出更加可控,能够持续迭代优化。
发明内容
针对现有技术存在的问题,本发明提供了一种交互式无监督标签分类系统方法、介质、终端。
本发明是这样实现的,一种交互式无监督标签分类方法,包括:
步骤一:根据需求构造标签体系;
步骤二:标签拓展,构造伪标签数据集;
步骤三:训练标签分类模型;
步骤四:对未标记样本进行预测;
步骤五:人工结果干预。
进一步,步骤一中,所述标签体系由领域专家或需求方进行构建。
进一步,步骤二中,所述伪标签数据集的构建方法包括:
(1)基于已有知识库,对叶子节点标签进行拓展;
(2)对待分类数据集进行清洗,过滤停用词,并提取关键词,及名词短语;
(3)利用叶子节点标签及拓展词汇,采用关键词匹配方式,进行文档召回,构建伪标签数据集。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中译语通科技股份有限公司,未经中译语通科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110364666.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:电缆塑料管抗形变测试系统
- 下一篇:一种自动清洗蒸汽过滤器