[发明专利]一种结合动态词嵌入和词性标注的文本分类方法有效
申请号: | 201710303328.4 | 申请日: | 2017-05-03 |
公开(公告)号: | CN107291795B | 公开(公告)日: | 2020-06-19 |
发明(设计)人: | 苏锦钿;李鹏飞;罗达 | 申请(专利权)人: | 华南理工大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/284 |
代理公司: | 广州市华学知识产权代理有限公司 44245 | 代理人: | 罗观祥 |
地址: | 510640 广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 结合 动态 嵌入 词性 标注 文本 分类 方法 | ||
1.一种结合动态词嵌入和词性标注的文本分类方法,其特征在于,所述文本分类方法包括下列步骤:
S1、利用词向量给出句子中词及其词性的数学表示,以预训练操作后的词嵌入表为基础给出句子中预处理后的各个词的实数向量表示,同时,对句子中各个词的词性进行标注后利用均匀分布将词性随机初始为指定维度的实数量;
S2、每一个双向LSTM层分别通过两个相反方向的LSTM层分别学习句子中词或词性的上下文信息,并将每一步的学习结果进行输出,最后将两个双向LSTM层的学习结果合并成一个双通道的向量矩阵;
S3、将双通道的向量矩阵传递给一个包含多个卷积词步长和卷积核的CNN层,然后通过CNN层上的二维卷积操作提取局部特征后进行池化和降维;
S4、通过一个单向的LSTM层分别学习各个词步长所对应的局部卷积特征间的上下文信息,接着输出最后一个语言单元的学习结果,并将所有的学习结果进行串联合并;
S5、采用多元交叉熵和基于随机梯度下降的rmsprop分类器对句子的类别进行预测和输出。
2.根据权利要求1所述的一种结合动态词嵌入和词性标注的文本分类方法,其特征在于,所述步骤S1包括下列子步骤:
S101、对句子进行预训练操作,所述预训练操作包括:标点符号过滤、缩写补齐、删除空格;
S102、然后结合句子长度分布及均方差确定句子的长度阈值,并进行长度补齐;
S103、利用预训练操作后的词向量表给出句子中各个词的实数向量表示;
S104、利用NLTK给出句子中各个词的词性标注,并利用区间[-0.25,0.25]上的均匀分布对每一种词性进行随机初始为指定维度的词嵌入,给出句子的词性向量表示;
S105、得到两个分别表示词及词性的向量矩阵。
3.根据权利要求1所述的一种结合动态词嵌入和词性标注的文本分类方法,其特征在于,所述步骤S3包括下列子步骤:
S301、通过使用多个不同词步长和权值的核矩阵分别对上一层输出的词向量矩阵进行二维卷积运算,提取局部卷积特征;
S302、利用二维池化窗口对局部卷积特征矩阵进行下采样,从而得到多个降维后的局部特征矩阵。
4.根据权利要求1所述的一种结合动态词嵌入和词性标注的文本分类方法,其特征在于,
在整个文本分类模型的训练过程中,同时结合后向传播对输入层中基于预训练词嵌入和基于初始随机化的词嵌入进行调整。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710303328.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种提高数据库性能的方法
- 下一篇:文件管理方法及装置