[发明专利]一种利用多样化文本特征进行文本分类的方法有效

专利信息
申请号: 201810460235.7 申请日: 2018-05-15
公开(公告)号: CN108664633B 公开(公告)日: 2020-12-04
发明(设计)人: 黄书剑;李念奇;戴新宇;张建兵;尹存燕;陈家骏 申请(专利权)人: 南京大学
主分类号: G06F16/35 分类号: G06F16/35;G06F40/247
代理公司: 江苏圣典律师事务所 32237 代理人: 胡建华;于瀚文
地址: 210023 江苏省南*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 利用 多样化 文本 特征 进行 分类 方法
【说明书】:

发明公开了一种利用多样化文本特征进行文本分类的方法,包括以下步骤:使用多维度文本表示算法,生成多组不同的文本特征表示,即纵向生成多维度文本特征表示;使用多种不同的文本表示算法,生成多组不同的文本特征表示,即横向生成多维度文本特征表示;将每个样本不同的特征表示向量进行组合,作为样本新的特征向量,进而得到数据集新的特征表示。将本发明对现有的文本表示算法进行了改进,提出了利用更多的维度较低且差异较大的文本表示来挖掘文本不同的内部结构,增强文本表示的能力,可以在极大程度上降低文本特征维度的同时,提升文本分类等任务的效果。

技术领域

本发明属于文本表示领域,尤其涉及一种利用多样化文本特征进行文本分类的方法。

背景技术

近年来,随着计算机技术与互联网的迅猛发展,人类进入信息时代,海量的数据,尤其是各类文本数据,蕴含着重要的信息与巨大的价值。对这些文本数据进行合理的整理归纳,有利于更好的利用这些大规模的文本数据。文本分类则是一种非常有效的方法。

文本分类一直是机器学习与人工智能领域一个非常重要的基础研究方向,同时也在产业界中有着广泛的应用。文本分类的效果在极大程度上取决于文本特征表示的质量。人类可以阅读的纯文本,对于机器学习算法而言是无法直接识别并利用的,需要转换成算法可以识别的实数向量或矩阵的形式。文本特征表示就是将纯文本转换成实数向量或矩阵的过程,即将语言进行数字化转换。文本特征表示主要分为两大类:一类是词级别的文本特征表示,即将词表示成词向量的形式,进而应用于文本分类等任务。该方法一般认为可以获取到词的语义信息,通过将词的语义信息添加到文本分类中来提升文本分类的效果;另一类是文档级别的文本特征表示,即将每个样本表示成固定长度的实数向量。相较于词级别的文本表示一般应用基于神经网络的分类,文档级别的文本表示应用更加广泛,既可以使用传统的基于统计的机器学习分类器,也可以应用神经网络分类器进行分类。

文本数据中普遍存在着多种内部结构。例如,一个由计算机领域论文构成的数据集,其中一种内部结构是论文涉及的研究方向,包括机器学习、数据结构、数据库等方向;另一种内部结构则是论文所涉及到的编程语言,包括Java、C++、Python等编程语言。使用单一的文本特征表示,无法很好的挖掘到数据集中的多种内部结构,并对这些内部结构进行特征表示。

在机器学习领域,多聚类算法是常见的用于挖掘数据多种内部结构的方法。多聚类算法生成多组差异较大、质量较好的聚类结果,以此来挖掘数据内部的多种结构。

如果能够将多聚类的思想应用到文本特征表示中,挖掘文本的多种内部结构,并强化每种内部结构的表示,则可以提高文本表示的质量,进而对文本分类等任务带来更有效的帮助。

发明内容

发明目的:本发明所解决的问题是针对现有技术的不足,提供一种能够挖掘文本多种内部结构,生成多样化的文本表示,以增强文本表示能力的方法。为了解决上述技术问题,本发明提供了如下技术方案:一种利用多样化文本特征进行文本分类的方法,进而提升文本分类等任务效果的方法。所述方法包含纵向多维度文本表示与横向多维度文本表示两种获取多样化文本特征表示的方法。所述方法包括如下步骤:

步骤1,纵向生成多维度文本特征表示:使用多维度文本表示算法,生成多组不同的文本特征表示,多维度文本表示算法可以为数据集中的每一个样本生成多个差异较大的特征向量;

步骤2,横向生成多维度文本特征表示:使用文本表示算法,生成多组不同的文本特征表示,文本表示算法包含且不仅限于多维度文本表示算法;

步骤3,将不同的文本特征表示进行组合,作为新的文本特征表示;

步骤4,通过新的文本特征表示对待分类样本进行分类。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京大学,未经南京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201810460235.7/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top