[发明专利]一种结合动态词嵌入和词性标注的文本分类方法有效
申请号: | 201710303328.4 | 申请日: | 2017-05-03 |
公开(公告)号: | CN107291795B | 公开(公告)日: | 2020-06-19 |
发明(设计)人: | 苏锦钿;李鹏飞;罗达 | 申请(专利权)人: | 华南理工大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/284 |
代理公司: | 广州市华学知识产权代理有限公司 44245 | 代理人: | 罗观祥 |
地址: | 510640 广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 结合 动态 嵌入 词性 标注 文本 分类 方法 | ||
本发明公开了一种结合动态词嵌入和词性标注的文本分类方法,通过结合动态词嵌入和词性标注给出一种基于深层神经网络的文本分类方法,既能够充分利用大规模语料库可提供更准确的语法和语义信息的优点,又能够在模型训练过程中结合语料库的特点对词嵌入进行调整,从而更好地学习训练语料库的特点。同时,还可以结合句子中词的词性信息进一步提高分类的准确率。本方法还综合利用了LSTM在学习句子中词及词性的上下文信息方面的优势,以及CNN在学习文本局部特征方面的优势。本发明所提出的分类模型具有准确率高和通用性强等优点,在一些著名的公开语料库,包括IMDB语料库、Movie Review和TREC等,均取得很好的效果。
技术领域
本发明涉及移动通信技术领域。具体涉及一种结合动态词嵌入和词性标注的文本分类方法。
背景技术
基于机器学习的文本自动分类是指在给定分类体系的前提下,利用各种计算机算法对文本的内容进行分析并自动确定文本类别的过程。早期的研究主要是基于浅层机器学习和统计学,并采用one-hot(也称one-of-V,V为词典的大小)或分配式的方式(如结合词频、共现信息、TF-IDF或熵的词袋)来给出句子的数学表示。这种表示方法的主要缺点是无法表达句子中语言单元(如字、词或短语n-grams)本身的语义及它们间的关系(例如任意两个不同词的向量内积均为0),且容易出现高维稀疏问题。近几年来,随着深度学习和深层神经网络在图形图像、手写字体识、语音识别等领域所取得的成功,一些学者开始利用神经网络来训练词的分布式表示(也称词嵌入或词向量),并取代one-hot或分配式表示来给出文本和句子的数学表示。词嵌入的主要思想是将词映射成一个连续且带语义信息的d维实数向量(d一般为模型的超参数)。现有的研究已经证明词嵌入能够更好地刻画文本的语法和语义信息,而且能够与深度神经网络相结合并进一步提高模型分类的准确性。目前,许多相关研究都是在基于大规模语料训练所得的词嵌入的基础上,利用递归神经网络(以长短期记忆网络LSTM和GRU为主要代表)或卷积神经网络等模型来学习文本的特征并进行分类。但这些研究主要采用静态的词嵌入,即词嵌入中各个向量元素的值在模型训练的过程中均保持不变,这使得模型不能够更好地学习目标语料库中文本的特点。另一方面,这些研究往往在所提出的模型中忽略了句子中各个词的词性等信息,因此这在一定程度上无法充分利用句子的语法结构来提高文本分类的准确性。
发明内容
本发明的目的是为了解决现有技术中的上述缺陷,提供一种结合动态词嵌入和词性标注的文本分类方法。
本发明的目的可以通过采取如下技术方案达到:
一种结合动态词嵌入和词性标注的文本分类方法,所述文本分类方法包括下列步骤:
S1、利用词向量给出句子中词及其词性的数学表示,以预训练操作后的词嵌入表为基础给出句子中预处理后的各个词的实数向量表示,同时,对句子中各个词的词性进行标注后利用均匀分布将词性随机初始为指定维度的实数量;
S2、每一个双向LSTM层分别通过两个相反方向的LSTM层分别学习句子中词或词性的上下文信息,并将每一步的学习结果进行输出,最后将两个双向LSTM层的学习结果合并成一个双通道的向量矩阵;
S3、将双通道的向量矩阵传递给一个包含多个卷积词步长和卷积核的CNN层,然后通过CNN层上的二维卷积操作提取局部特征后进行池化和降维;
S4、通过一个单向的LSTM层分别学习各个词步长所对应的局部卷积特征间的上下文信息,,接着输出最后一个语言单元的学习结果,并将所有的学习结果进行串联合并;
S5、采用多元交叉熵和基于随机梯度下降的rmsprop分类器对句子的类别进行预测和输出。
进一步地,所述步骤S1包括下列子步骤:
S101、对句子进行预训练操作,所述预训练操作包括:标点符号过滤、缩写补齐、删除空格;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710303328.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种提高数据库性能的方法
- 下一篇:文件管理方法及装置