[发明专利]一种基于层次化长短期记忆网络的中文文本分类方法在审
申请号: | 201810663821.1 | 申请日: | 2018-06-25 |
公开(公告)号: | CN108875034A | 公开(公告)日: | 2018-11-23 |
发明(设计)人: | 徐国祥 | 申请(专利权)人: | 湖南丹尼尔智能科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27;G06N3/04;G06N3/08 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 410205 湖南省长沙市高新开发*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 记忆网络 特征向量 中文文本 层次化 向量 组合特征 词向量 分类 特征向量计算 练字 基础上将 神经网络 文本分类 文本数据 向量计算 语意关系 无监督 | ||
本发明公开一种基于层次化长短期记忆网络的中文文本分类方法。步骤包括:首先采用无监督文本数据集训练字向量和词向量;然后对文本中的每一个词,使用一层长短期记忆网络根据这个词包含的字的字向量计算该词的特征向量;接着对文本中的每一个词,将计算得到的特征向量与其本身的词向量相连接,作为该词的组合特征向量;在此基础上将文本中所有词的组合特征向量输入到一层长短期记忆网络中计算文本的特征向量,最后利用一层全连接神经网络根据文本的特征向量计算文本的类别分布,进而对文本进行分类。本发明所提出的方法可以很好地表示中文文本中字与词的关系和词与文本的关系,并且很好地表示了“字‑词‑文本”的层次化语意关系,可以使文本分类更加准确。
技术领域
本发明涉及文本分类领域,具体指一种基于层次化长短期记忆网络的中文文本分类方法。
背景技术
随着互联网的发展,各种网络媒体和网络用户不断增多,每天产生了大量文本数据,存在严重的信息过载现象,人们很难从海量文本数据中找到自己需要的信息,因此对大量文本数据进行结构化非常重要。文本分类是文本数据结构化的重要技术,通过将文本分到不同的类别,人们只需要对自己关心的类别中的文本进行浏览,从而可以大大提高找到有用信息的效率。
传统文本分类方法一般采用向量空间模型表示文本的特征,然后选择一定的分类器进行分类训练。向量空间模型将每一个词作为一个独立的特征,然后从所有出现的词中选择一些对分类有利的词作为特征词,最后根据文本中这些词的出现次数计算文本的特征。这种方法并没有考虑词与词之间的相似性以及文本中词的顺序,因此无法准确地理解文本表达的语意。
随着深度学习的发展,基于神经网络的文本分类方法得到广泛应用。基于神经网络的文本分类方法一般将文本中每一个词表示为一个词向量,词向量的相似度代表了词的相似度,在此基础上构建一定的神经网络模型提取文本特征并进行文本分类。基于神经网络的文本分类方法可以很好地表示词的相似性和文本中词的顺序,因此可以较好地理解文本的语意。大多数基于神经网络的文本分类方法以词作为最小单元,因为词具有最基本的完整语意。但是由于中文的词是由字组合而成,在现实使用中常常出现多种新的组合,从而形成新词,如近几年出现并被广泛应用的“给力”一词,当该词刚出现时,文本数据集中很少这样的词,因此模型训练中无法很好地得到该词的词意,进一步会影响文本分类的精度。但是“给力”一词的词意基本可以由“给”和“力”两个字的意义组合而来,因此,在文本分类中考虑字的意义也具有重要作用。
专利CN 107832458 A提出了一种字符级的基于嵌套深度网络的文本分类方法,其采用字符作为输入,使用ResNet提取高维序列特征,最后用长短期记忆网络进行文本分类。该方法考虑了以字作为输入的优点,但是没有对词的语意进行研究和表示,词是中文语意的基本单元,因此利用词的意义进行文本分类也非常重要。
专利CN 107656990 A提出了一种基于字和词两个层面特征信息的文本分类方法,该方法分别将字向量和词向量输入到卷积神经网络中提取文本特征,再将两种特征相连接作为文本的最终特征,用于文本分类。该方法对字的语意和词的语意都作为输入,但是模型没有体现“字的语意组成词的语意,词的语意组成文本的语意”这样的层次化关系,并且其使用卷积神经网络的最大池化提取两种特征,没有考虑到文本中字和词的顺序。
因此,提出一种能同时考虑字和词两者的语意,并且很好地体现字、词和文本的语意关系以及文本中字和词顺序的方法,是文本分类急需解决的问题。
发明内容
本发明为克服上述情况不足,旨在提供一种基于层次化长短期记忆网络的中文文本分类方法,以解决现有文本分类方法在中文文本语意理解上存在的问题,提高中文文本分类精度。
一种基于层次化长短期记忆网络的中文文本分类方法,其特征在于,包括以下步骤:
步骤1:准备文本数据集,包含无标记数据集和标记数据集;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖南丹尼尔智能科技有限公司,未经湖南丹尼尔智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810663821.1/2.html,转载请声明来源钻瓜专利网。