[发明专利]一种结合监督学习的中文文本分类方法有效

专利信息
申请号: 201710642072.X 申请日: 2017-07-31
公开(公告)号: CN107590177B 公开(公告)日: 2021-02-02
发明(设计)人: 刘兴;李晓飞;韩光 申请(专利权)人: 南京邮电大学
主分类号: G06F16/35 分类号: G06F16/35
代理公司: 南京经纬专利商标代理有限公司 32200 代理人: 朱小兵
地址: 210023 *** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 结合 监督 学习 中文 文本 分类 方法
【说明书】:

发明公开了一种结合监督学习的中文文本分类方法,属于自然语言处理技术领域,WMD算法用于文本分类领域时,因分类标准的不同导致特定条件下文本分类的结果准确度较低。为使WMD算法适应不同分类条件,本发明结合监督学习的方法,引入变换矩阵A和初始值为1的权重向量w来改进算法。为了训练参数A,w,利用NCA算法对带标签的训练集进行训练,得到变换矩阵A的初始值,而后利用随机数β对A,w进行迭代更新直到该算法的损失函数收敛。利用最终的A,w改进WMD算法表达式并以此计算文本的最小距离,该距离的大小代表在特定分类条件下待测试文本的相似度的高低。本发明改进了不同分类条件下文本相似度的准确性,具有一定实用价值。

技术领域

本发明属于自然语言处理技术领域,尤其涉及一种结合监督学习的中文文本分类方法。

背景技术

随着人工智能的发展,自然语言处理方向也随之成为热点。许多新兴技术也被发明用到自然语言处理领域中。其中,作为自然语言处理的一个重要分支,文本相似度研究因为涉及到自动问答、文本分类、搜索引擎优化等领域,受到了研究者的极大的关注。为研究不同文本间潜在的某种联系,前人在语义研究方面也做出了诸多努力,1988年salton系统地研究了基于词频权重的不同组合,统计了语料库数据并进行归一化。Robertson于1994年提出Okapi BM25函数来统计文档中词语的分数用于应用程序排行领域。Aslam(2003)根据文档语料库中单词出现的概率来推导两个文档之间的相似度分数,Croft(2003)使用语言模型来描述从文档生成词语的可能性,类似于LDA模型(Blei)。

2013年,mikolov介绍了一种新型词嵌入—word2vec,用浅层神经网络语言模型学习每个单词的向量表示,并最大限度利用语料库种相邻单词的对数概率,求得单词间的余弦距离。因使用softmax激活函数和skip-gram模型,word2vec词嵌入模型可以预测到词语之间的潜在关系(男人–女人=国王–皇后);本发明中结合监督学习的WMD算法正是以word2vec词嵌入为基础提出。

现如今,从单词相似度扩展到文本相似度方向上的研究也取得了一定进展。利用EMD最短运输距离算法,求得样本d变换到d’的最短距离来衡量样本相似度的方法也有较低的KNN错误率,其中最短距离的原子项正是利用了word2vec方法。诚然,文本相似度也可以作为文本分类的一种度量手段。但当人为限定了特定的分类条件时,n维空间上距离相近的两个样本可能会不属于同一个类别,反而距离较远的样本拥有相同的类别。例如,两个表达积极情绪的样本应该和消极情绪的样本分开,而当其中一个积极样本和消极样本讨论的事物相同,而和另一个积极样本讨论的则完全属于另一件事时,针对不同的分类标准,会形成不同的聚类结果。因此,仅利用word2vec从文本相似度方向来进行文本分类是具有缺陷的。

传统的文本分类方法都是人为贴上分类标签,而后在测试集中提取关键词来进行分类预测,然而单个单词并不能代替文本的全部信息;然而利用整个文本相似度进行文本分类,例如WMD算法,将文本的相似度计算问题转移为求解句子间转换需要的最小代价,也由于分类的标准的模糊导致了一些误差,在不同的分类条件下,语义相似度高的文本可能属于不同类别。

发明内容

本发明所要解决的技术问题是针对背景技术的不足提供了一种结合监督学习的中文文本分类方法,结合word2vec和WMD算法,提高特定条件下中文文本分类的准确率。

本发明为解决上述技术问题采用以下技术方案

一种结合监督学习的中文文本分类方法,具体包含如下步骤:

步骤1,获取网络上的文本语料,对m条文本语料进行分词并去除结构性词语;其中,m为正整数;

步骤2,利用word2vec算法获取m条文本语料中所有单词的词嵌入Xi,并构建一个d*n的词嵌入矩阵X,其中,d是每个词嵌入的维度,n是词嵌入的数目;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201710642072.X/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top