[发明专利]一种基于多步判别的Co-Attention模型用于多标签文本分类的方法有效
申请号: | 201910748118.5 | 申请日: | 2019-08-14 |
公开(公告)号: | CN110442723B | 公开(公告)日: | 2020-05-15 |
发明(设计)人: | 李玉军;马浩洋;马宝森;李泽强;邓媛洁 | 申请(专利权)人: | 山东大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 济南金迪知识产权代理有限公司 37219 | 代理人: | 许德山 |
地址: | 250199 山*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及一种基于多步判别的Co‑Attention模型用于多标签文本分类的方法,基于算法改编方法,通过引入原始文本信息与前导标签的互注意力机制,实现了前导标签在文本编码过程中的信息过滤作用,优化了训练过程,原始文本内容对前导标签的注意力作用进一步缓解了单次错误预测导致的误差累积问题。本发明针对多标签文本分类任务的特点,采用特征向量差分融合与级联融合策略。通过差分,凸显了待预测标签所依赖的原始文本信息,优化了标签信息监督作用,获得了信息全面且具有区分度的最终编码向量。实现了原始文本信息、前导标签信息、待预测标签信息三者间的同时建模。 | ||
搜索关键词: | 一种 基于 多步判 别的 co attention 模型 用于 标签 文本 分类 方法 | ||
【主权项】:
1.一种基于多步判别的Co‑Attention模型用于多标签文本分类的方法,其特征在于,包括步骤如下:(1)标签数据预处理:将标签序列分为前导标签和待预测标签,前导标签是指已经预测出的标签,待预测标签是指未预测的新标签,前导标签和原始文本进行信息融合,使其满足多步判别的多标签分类需求;(2)训练词向量;通过word2vec中的skip‑gram模型进行词向量训练,使原始文本中的每个单词在向量空间有对应的特征表征;(3)文本特征提取;将步骤(2)词向量训练后的原始文本输入双向LSTM模型,进行编码操作,进一步提取文本特征,得到双向LSTM模型的隐藏层状态;将在步骤(2)中通过词向量训练后的原始文本与原始文本信息融合的前导标签进行嵌入表示,使每个标签有对应的向量表征,得到前导标签特征;(4)特征组合:包括:a、通过原始文本在前导标签序列上的注意力操作,前导标签在原始文本中对应的信息,作为冗余信息;b、通过差分操作删除掉冗余信息,通过前导标签在原始文本上的注意力操作得到前导标签信息,上述两个操作得到的表征向量通过级联操作进行信息融合得到级联特征向量;(5)分类预测:步骤(4)中得到的级联特征向量输入全连接层,全连接层得到的向量输入到softmax层,输出在每个标签上的概率分布,即概率值,维度是标签种类个数;选取概率值最大对应的标签作为预测标签,并将此预测标签纳入到前导标签中,重复上述步骤(1)(5)直到预测出截止标签。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东大学,未经山东大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910748118.5/,转载请声明来源钻瓜专利网。