[发明专利]一种基于字符与自注意力机制的层次文本分类方法及中文文本分类方法有效

专利信息
申请号: 201911012774.5 申请日: 2019-10-23
公开(公告)号: CN110825845B 公开(公告)日: 2022-09-23
发明(设计)人: 李芳芳;范日勇;施荣华 申请(专利权)人: 中南大学
主分类号: G06F16/33 分类号: G06F16/33;G06F16/35;G06K9/62;G06N3/04
代理公司: 长沙惟盛赟鼎知识产权代理事务所(普通合伙) 43228 代理人: 张丁日
地址: 410083 湖南*** 国省代码: 湖南;43
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 字符 注意力 机制 层次 文本 分类 方法 中文
【说明书】:

本发明公开了一种基于字符与自注意力机制的层次文本分类方法,属于自然语言处理领域。首先通过构建字符表,然后对原始数据集进行预处理,对预处理后数据集中的字符进行编码,将编码后的字符特征使用自注意力机制得到字符自注意力机制特征,合并字符自注意力机制特征的上下文信息得到词特征。接着对词特征使用自注意力机制得到词自注意力机制特征,合并词自注意力机制特征的上下文得到句子特征。最后,使用softmax分类器预测文本类别。本发明能在自注意力机制的基础上构造层次自注意力机制网络,捕获文本结构的复合特征,提高分类精确度。

技术领域

本发明涉及自然语言处理技术领域,尤其涉及一种基于字符与双层自注意力机制网络结合的层次文本分类方法。

背景技术

随着网络技术的快速发展,海量的信息资源以文本的形式存在。如何对这些文本进行有效的分类,从海量的文本中快速、准确、全面的挖掘有效信息,已经成为了自然语言处理研究领域的热点之一。文本分类是指按照预先定义的主题类别,为文档集合中的每个文档确定一个类别。文本分类技术在日常生活中具有广泛的应用,例如,对垃圾短信和邮件的过滤,对新闻的分组查阅等等。

近些年来,文本分类研究多注重分类模型的构建和优化。传统机器学习模型,如支持向量机、朴素贝叶斯、最大熵模型等,以及深度学习方法,如卷积神经网络(Convolutional Neural Networks,CNN)、长短时间记忆网络(Long Short Term MemoryNetworks,LSTM)等都被广泛研究和运用。随着深度学习在计算机视觉和语音识别中取得的巨大成功,越来越多的研究尝试将深度学习应用到中文文本分类中。与传统的文本分类方法不同的是,深度学习方法通过深度神经网络模型来学习文本的词特征,进而构建文本特征以实现文本分类。基于深度神经网络模型的方法在中文文本分类任务中取得了比传统的机器学习模型更好的分类效果。

深度神经网络中的注意力机制模仿了生物观察行为的内部过程,即一种将内部经验和外部感觉对齐,从而增加部分区域的观察精细度的机制。注意力机制可以快速提取稀疏数据的重要特征,因而被广泛用于自然语言处理任务,特别是机器翻译。而自注意力机制是注意力机制的改进,其减少了对外部信息的依赖,更擅长捕捉数据或特征的内部相关性。

在此之前很多基于深度学习的模型都是使用更高层面的单元对文本或者语言进行建模,比如单词(word2vec),短语(phrases),句子(sentence)层面,或者对语义和语法结构进行分析。这些单词,语句,句子的知识往往是高维的,很难应用于神经网络中。

当前的文本分类方法认为文本中每一个特征对于分类的重要性相同,简单的用文本中所有的特征来表示文本特征,导致分类过程中存在较多的噪音特征。

中国专利CN108717439A“一种基于注意力机制和特征强化融合的中文文本分类方法”属于数据挖掘技术领域;所述一种基于注意力机制和特征强化融合的中文文本分类方法中提出一种基于注意力机制、长短期记忆网络与卷积神经网络的特征强化融合中文文本分类模型和特征差异强化注意力算法模型;特征强化融合中文文本分类模型,以双层LSTM和CNN模块依次对注意力机制提取的文本特征进行强化融合,不断增强所提取文本特征的丰富程度和,使其包含的文本特征更加全面更加细致,从而提高了模型对中文文本特征的识别能力。本专利作者以词作为最小单元,结合了注意力机制,长短期记忆网络与卷积神经网络进行文本分类,但是如果以词作为最小单元对语言进行建模,由于数据量大,文本长度长,导致单词层面的维度较高,神经网络的训练慢,付出的代价较高。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中南大学,未经中南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201911012774.5/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top