[发明专利]一种结合动态词嵌入和词性标注的文本分类方法有效
申请号: | 201710303328.4 | 申请日: | 2017-05-03 |
公开(公告)号: | CN107291795B | 公开(公告)日: | 2020-06-19 |
发明(设计)人: | 苏锦钿;李鹏飞;罗达 | 申请(专利权)人: | 华南理工大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/284 |
代理公司: | 广州市华学知识产权代理有限公司 44245 | 代理人: | 罗观祥 |
地址: | 510640 广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种结合动态词嵌入和词性标注的文本分类方法,通过结合动态词嵌入和词性标注给出一种基于深层神经网络的文本分类方法,既能够充分利用大规模语料库可提供更准确的语法和语义信息的优点,又能够在模型训练过程中结合语料库的特点对词嵌入进行调整,从而更好地学习训练语料库的特点。同时,还可以结合句子中词的词性信息进一步提高分类的准确率。本方法还综合利用了LSTM在学习句子中词及词性的上下文信息方面的优势,以及CNN在学习文本局部特征方面的优势。本发明所提出的分类模型具有准确率高和通用性强等优点,在一些著名的公开语料库,包括IMDB语料库、Movie Review和TREC等,均取得很好的效果。 | ||
搜索关键词: | 一种 结合 动态 嵌入 词性 标注 文本 分类 方法 | ||
【主权项】:
一种结合动态词嵌入和词性标注的文本分类方法,其特征在于,所述文本分类方法包括下列步骤:S1、利用词向量给出句子中词及其词性的数学表示,以预训练操作后的词嵌入表为基础给出句子中预处理后的各个词的实数向量表示,同时,对句子中各个词的词性进行标注后利用均匀分布将词性随机初始为指定维度的实数量;S2、每一个双向LSTM层分别通过两个相反方向的LSTM层分别学习句子中词或词性的上下文信息,并将每一步的学习结果进行输出,最后将两个双向LSTM层的学习结果合并成一个双通道的向量矩阵;S3、将双通道的向量矩阵传递给一个包含多个卷积词步长和卷积核的CNN层,然后通过CNN层上的二维卷积操作提取局部特征后进行池化和降维;S4、通过一个单向的LSTM层分别学习各个词步长所对应的局部卷积特征间的上下文信息,,接着输出最后一个语言单元的学习结果,并将所有的学习结果进行串联合并;S5、采用多元交叉熵和基于随机梯度下降的rmsprop分类器对句子的类别进行预测和输出。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710303328.4/,转载请声明来源钻瓜专利网。
- 上一篇:一种提高数据库性能的方法
- 下一篇:文件管理方法及装置