[发明专利]一种单双点平滑结合的流形正则化半监督文本分类方法在审
申请号: | 202010353920.7 | 申请日: | 2020-04-29 |
公开(公告)号: | CN111581380A | 公开(公告)日: | 2020-08-25 |
发明(设计)人: | 沈雅婷 | 申请(专利权)人: | 南京理工大学紫金学院 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06K9/62 |
代理公司: | 江苏吾索律师事务所 32337 | 代理人: | 曾昭昱 |
地址: | 210046 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 单双点 平滑 结合 流形 正则 监督 文本 分类 方法 | ||
1.一种单双点平滑结合的流形正则化半监督文本分类方法,其特征在于,包括以下步骤:
步骤1:采集包含已标记文本样本、未标记文本样本的真实样本数据集;
步骤2:通过无监督学习方法FCM获得实例位于非边缘区域的概率,并且通过实例与其近邻点之间的归一化距离来获取实例的局部密度;
步骤3:利用步骤2中获得的概率和局部密度在MR中的第三项的双点平滑约束中加入单点平滑约束;
步骤4:利用平方损失或者铰链损失函数制定一个统一的分类目标函数其中或者其中
步骤5:设置其中的正则化参数和核函数参数;
步骤6:输入待分类文本数据,利用文本分类函数进行分类,获得文本的类别。
2.根据权利要求1所述的一种单双点平滑结合的流形正则化半监督文本分类方法,其特征在于,步骤1是在UCI公开数据集和benchmark数据集,采集文本真实数据。
3.根据权利要求1所述的一种单双点平滑结合的流形正则化半监督文本分类方法,其特征在于,步骤1所述采集文本真实样本数据集包含多个web页面,首先使用网页的文本内容,忽略链接信息,文件的词袋向量表示被构造使用前3000单词,即跳过HTML头;其次采用TFIDF映射,将特征向量归一成单位长度。
4.根据权利要求1所述的一种单双点平滑结合的流形正则化半监督文本分类方法,其特征在于,步骤2中求实例xi的局部密度p(xi),采用无监督学习方法FCM,并且采用每个实例xi与其近邻之间的归一化距离;
首先,根据无监督学习方法通常可以用来检测分布结构的内在边界,u1i和u1j表示实例xi分别属于其一集群(类别)的概率,max(u1i,u2i)表示实例xi位于非边缘区域的概率,max(u1i,u2i)的值越大,实例xi位于非边缘区域的概率越大,根据归一化距离计算,其中d(xi,xj)表示点xi和它的近邻集中的点xj之间的距离,表示所有实例上这种距离的总和;
然后,实例xi的局部密度可求得
5.根据权利要求1所述的一种单双点平滑结合的流形正则化半监督文本分类方法,其特征在于,步骤3中,在步骤2求得实例xi的局部密度p(xi)后,利用双点平滑约束和单点局部密度改进MR中的第三项,框架的优化问题表示为
6.根据权利要求1所述的一种单双点平滑结合的流形正则化半监督文本分类方法,其特征在于,步骤4中,采用平方损失或者铰链损失制定一个统一的分类目标函数:其中或者其中
其中,K为(nl+nu)×(nl+nu)的核矩阵,Y是给定的(nl+nu)维度标签向量,J是一个由第nl个对角线上为1并且其余的为0的J=diag(1,…,1,0,…,0)给定的(nl+nu)×(nl+nu)的对角矩阵。
7.根据权利要求1所述的一种单双点平滑结合的流形正则化半监督文本分类方法,其特征在于,步骤5中,通过5折交叉验证选出最优的正则化参数以及核函数,其中正则化参数τ值设为0.5,调节参数τ=0时公式退化为MR,参数C1和C2的取值范围为{0.01,0.1,1,10,100},核函数选择线性核,近邻数k都被简单地设置为10,已标记文本样本个数固定为10或100。
8.根据权利要求1所述的一种单双点平滑结合的流形正则化半监督文本分类方法,其特征在于,步骤6中,使用步骤3、4、5中得到的一种单双点平滑结合的流形正则化半监督文本分类方法,对步骤1中产生的测试数据进行预测,得到最终的文本预测标签。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京理工大学紫金学院,未经南京理工大学紫金学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010353920.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种含有氮化硼的染发剂
- 下一篇:一种具有权值衰减的分布式自适应在线学习方法