[发明专利]一种单双点平滑结合的流形正则化半监督文本分类方法在审
申请号: | 202010353920.7 | 申请日: | 2020-04-29 |
公开(公告)号: | CN111581380A | 公开(公告)日: | 2020-08-25 |
发明(设计)人: | 沈雅婷 | 申请(专利权)人: | 南京理工大学紫金学院 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06K9/62 |
代理公司: | 江苏吾索律师事务所 32337 | 代理人: | 曾昭昱 |
地址: | 210046 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 单双点 平滑 结合 流形 正则 监督 文本 分类 方法 | ||
本发明公开了一种单双点平滑结合的流形正则化半监督文本分类方法,包括:1)采集包含已标记文本样本、未标记文本样本的真实样本数据集;2)通过无监督学习方法FCM获得实例位于非边缘区域的概率,并且通过实例与其近邻点之间的归一化距离来获取实例的局部密度;3)利用步骤(2)中获得的概率和局部密度在MR中的第三项的双点平滑约束中加入单点平滑约束;4)利用平方损失或者铰链损失函数制定一个统一的分类目标函数;5)设置其中的正则化参数和核函数等参数,并学习获得文本分类函数;6)输入待分类文本数据,利用文本分类函数进行分类,获得文本的类别。本发明在测试集上的错误率具有显著地改善,能将每个单点行为与其近邻的行为联系起来。
技术领域
本发明涉及一种单双点平滑结合的流形正则化的文本分类方法,属于半监督算法和文本分类处理技术领域。
背景技术
文本分类问题与其它分类问题没有本质上的区别,其方法可以归结为根据待分类数据的某些特征来进行匹配,当然完全的匹配是不太可能的,因此必须(根据某种评价标准)选择最优的匹配结果,从而完成分类。其中分类器的选择与训练、分类结果的评价与反馈十分重要。文本分类是机器学习的基本任务。
文本分类可分为两大类,即监督分类和半监督分类。监督分类是文本样本全部具有标号,半监督分类是部分文本样本具有标号,部分文本样本不具有标号。在实际中,无标号的文本比有标号的文本成本低、易获取,因此,从可应用的信息量角度可以看出,半监督文本分类在现实应用中有很强的需求并且已经引起了相当大的关注,它是通过结合已标记和未标记文本来学习的,取得比单独使用已标记文本更好的性能。半监督分类中两个常见的假设,聚类假设和流形假设。半监督分类MR遵循流形假设,采用双点平滑约束流形图上的相似实例共享相似的分类输出,即平滑约束是在所有实例对上实现的,也就是视每个实例对为单位。
然而,平滑在本质上是以单个实例为单位的,也就是说,平滑性应该发生在“任何地方”,通过将每个单点行为与其近邻的行为联系起来。虽然在一些研究中认为单点平滑是合理的,但在具有流形假设的MR中,它和双点平滑还没有同时实现。
发明内容
本发明所要解决的技术问题是针对上述现有技术存在的问题和不足,本发明目的是对于文本数据集进行文本分类,通过结合实例对平滑和单个实例的平滑来实现半监督学习。通过这种方式,单双点的平滑都被取利用,都具重要性且做出贡献,这种重要性可以是双点约束信息,也可以是单点局部密度。以解决现有技术忽略平滑在本质上是以单个实例为单位的问题。
本发明为解决上述技术问题采用以下技术方案是:一种单双点平滑结合的流形正则化半监督文本分类方法,该方法包括以下步骤:
步骤1,采集包含已标记文本样本、未标记文本样本的真实样本数据集;
步骤2,通过无监督学习方法FCM获得实例位于非边缘区域的概率,并且通过实例与其近邻点之间的归一化距离来获取实例的局部密度;
步骤3,利用步骤2中获得的概率和局部密度在MR中的第三项的双点平滑约束中加入单点平滑约束;
步骤4,利用平方损失或者铰链损失函数制定一个统一的分类目标函数其中或者其中
步骤5,设置其中的正则化参数和核函数等参数;
步骤6,输入待分类文本数据,利用文本分类函数进行分类,获得文本的类别。
进一步的,本发明提出的方法中,步骤1是在UCI公开数据集和benchmark数据集,采集文本真实数据。
进一步的,本发明提出的方法中,步骤1所述采集文本真实样本数据集包含多个web页面,首先使用网页的文本内容,忽略链接信息,文件的词袋向量表示被构造使用前3000单词,即跳过HTML头;其次采用TFIDF映射,将特征向量归一成单位长度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京理工大学紫金学院,未经南京理工大学紫金学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010353920.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种含有氮化硼的染发剂
- 下一篇:一种具有权值衰减的分布式自适应在线学习方法