[发明专利]一种基于深度学习的文本单类分类方法及系统在审
申请号: | 202010835617.0 | 申请日: | 2020-08-19 |
公开(公告)号: | CN112015894A | 公开(公告)日: | 2020-12-01 |
发明(设计)人: | 金佳佳;陆俊杰;王开红 | 申请(专利权)人: | 银江股份有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06K9/62 |
代理公司: | 杭州之江专利事务所(普通合伙) 33216 | 代理人: | 张慧英 |
地址: | 310012 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 学习 文本 分类 方法 系统 | ||
本发明涉及自然语言处理领域,尤其涉及一种基于深度学习的文本单类分类方法及系统,包括文本预处理步骤、构建深度学习特征提取网络步骤、生成单类分类模型步骤、单类分类预测步骤,系统,包括:文本数据获取模块、文本预处理模块、深度学习特征提取网络、单类分类模型、分类预测模块。本发明采用深度学习算法自动提取单类文本的复杂特性,无需根据单类数据特性设计相对应的算法,形成特征工程通用模型,解决了单类分类任务的首要难点,还采用模糊邻域覆盖的隶属关系进行软划分,将数据样本分为正(肯定属于某类),负(肯定不属于某类)和不确定情况,有效处理不确定数据,以降低分类风险。
技术领域
本发明涉及自然语言处理领域,尤其涉及一种基于深度学习的文本单类分类方法及系统。
背景技术
分类问题是机器学习领域的核心问题之一,分类算法使用有监督学习方法得到一个映射函数,将待分类样本的特征映射到有限类别集合中。通常分类算法使用的训练样本至少包含两个不同的类别,通过解分类算法对应的优化问题得到用于决策的模型,称为分类器或分类模型。然而在一些实际问题中,训练阶段只能得到一个类别的训练样本,或仅有一个类别的训练样本是对应类别的充分采样。例如在网络入侵检测模型的构建中,绝大多数能够收集到的数据是非入侵情况下的网络通讯数据,对于层出不穷的入侵方法,甚至在训练阶段尚未出现的新入侵方法,无法在训练样本中得以体现。又例如在医疗领域住院患者状态监控算法中,理想的训练数据集应当包括“正常状态”和“异常状态”两个类别的样本,但住院患者在绝大多数时间都处于正常的状态,采集异常情况下患者的各项指标数据是非常困难,同时也难以确保异常状态数据能够有效代表“异常状态”类别。
为解决这类问题,研究者们提出了一种特殊的分类算法,称为单类分类算法。单类分类算法仅需要一个类别的训练样本,得到的单类分类器能够将与训练数据同类别的样本与其他潜在类别的样本区分。更精确地说,单类分类算法是一类通过对正类训练样本建模,区分正类样本与负类样本,可用于离群点(异常)检测、稀有类发现、多分类等多种任务的机器学习方法。其中正类通常对应采样较充分,先验知识较多的类别,负类通常对应采样较不充分甚至没有样本,先验知识较少甚至无法获取的类别。虽然单类分类器可以使用较少的样本完成分类任务,但由于仅有一类训练样本,在算法优化问题设计、算法参数选择和算法模型评价等问题中会遇到更多的困难。同时,单类分类器的性能受到训练样本的限制,往往难以得到足够理想的效果。
单类分类算法与一般分类算法的“判别”特性不同,单类分类算法的核心在于“描述”。然而训练数据集包含的正类样本可能存在很多复杂特性,如何设计对应的单类分类算法应对这些特性是单类分类算法设计的核心。但是相关研究较不充分,至今为止的研究大多仅停留在规则、机器学习以及集成学习层面上
发明内容
本发明为克服上述的不足之处,目的在于提供一种基于深度学习的文本单类分类方法及系统,通过深度学习提取特征,无需设计分类算法,构建通用的单类分类模型,降低分类风险。
本发明是通过以下技术方案达到上述目的:一种基于深度学习的文本单类分类方法,包括以下步骤:
文本预处理步骤:收集单类文本数据I分为目标数据和目标模板数据,通过预训练模型构造字符向量矩阵并对目标数据和目标模板数据进行向量化处理,得到目标文本向量空间和目标模板文本向量空间;
构建深度学习特征提取网络步骤:目标文本向量空间和目标模板文本向量空间经过卷积计算层、池化层、全连接层后输出目标特征和目标模板特征;
生成单类分类模型步骤:对目标模板特征构建邻域覆盖,得到目标模板邻域集和目标模板邻域覆盖;计算目标特征在目标模板邻域集的隶属度,输出模糊邻域覆盖,基于邻域覆盖的隶属关系,输出目标特征属于目标模板邻域覆盖的概率,并迭代更新网络参数,生成单类分类模型,该单类分类模型包括:将文本数据向量化处理预训练模型、训练好的深度学习特征提取网络、构建邻域覆盖及模糊邻域覆盖的分类模型;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于银江股份有限公司,未经银江股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010835617.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于速度比的电泳生产自动防堵塞装置
- 下一篇:内容展示方法及装置