[发明专利]一种基于人工智能的多级文本多标签分类方法及系统有效
申请号: | 201711063644.5 | 申请日: | 2017-11-02 |
公开(公告)号: | CN108073677B | 公开(公告)日: | 2021-12-28 |
发明(设计)人: | 李鹏;王斌;郭莉;梅钰 | 申请(专利权)人: | 中国科学院信息工程研究所 |
主分类号: | G06F16/35 | 分类号: | G06F16/35 |
代理公司: | 北京君尚知识产权代理有限公司 11200 | 代理人: | 邱晓锋 |
地址: | 100093 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 人工智能 多级 文本 标签 分类 方法 系统 | ||
1.一种基于人工智能的多级文本多标签分类方法,其特征在于,包括以下步骤:
1)利用神经网络构建多级文本多标签分类模型,并根据该模型得到训练文本的文本类别预测结果;
2)根据训练文本中已有的文本类别标注信息与步骤1)得到的训练文本的文本类别预测结果,对多级文本多标签分类模型的参数进行学习,得到参数确定的多级文本多标签分类模型;
3)利用参数确定的多级文本多标签分类模型对待分类文本进行分类;
其中,步骤1)所述构建多级文本多标签分类模型,包括以下步骤:
1-1)确定文本级别,其为文档、段落、句子、词、字中的全部或部分级别;
1-2)确定文本的构建假设,所述构建假设包括加权组合假设以及序列编码假设,其中,文档级别的构建使用加权组合假设,要预测类别的文本级别向上的相邻文本级别的构建使用加权组合假设,要预测类别的文本级别的构建使用加权组合假设或者序列编码假设;所述加权组合假设认为文本是由低级别“构成文本-类别”向量加权组合而成,不考虑“构成文本”的位置顺序;所述序列编码假设认为文本是由低级别“构成文本-类别”向量顺序编码而成,考虑输入的文本向量的位置顺序;
1-3)将构建假设转换为构建模块,其中,加权组合假设对应加权组合模块,序列编码假设对应序列编码模块;
1-4)根据训练集中标签所在的文本级别,为对应文本添加分类预测模块。
2.如权利要求1所述的方法,其特征在于,所述加权组合模块用于生成文本在指定类别下的向量表示,即“文本-类别”对的向量表示,包括以下步骤:
(1)将文本拆分为低级别“构成文本”,使用构成文本序列对应的“构成文本-类别”向量序列以及类别向量作为输入;
(2)人工加入至少1个“填充文本”并计算“填充文本-类别”向量序列;
(3)利用神经网络的关注机理,分别计算“构成文本-类别”权重以及“填充文本-类别”权重;
(4)将相关的“构成文本-类别”向量和“填充文本-类别”向量进行加权相加,得到最后的输出即“文本-类别”向量。
3.如权利要求1所述的方法,其特征在于,所述序列编码模块包括序列到向量编码模块以及序列到序列编码模块;所述序列到向量编码模块将向量序列输入转换为单个向量;所述序列到序列编码模块将向量序列输入转换为等长的新向量序列输出。
4.如权利要求3所述的方法,其特征在于,所述序列到向量编码模块采用CNN模型或者LSTM模型,对输入的“文本-类别”向量序列进行编码,生成输入的文本序列对应的“文本-类别”的向量表示;所述序列到序列编码模块使用LSTM、GRU、Bi-LSTM或者Bi-GRU中的一种对输入的“文本-类别”向量序列进行编码,顺序保留每个位置的输出向量,构成向量序列并输出。
5.如权利要求1所述的方法,其特征在于,所述分类预测模块包括单标签分类模块和多标签分类模块;所述单标签分类模块用于预测给定文本的唯一类别标签;所述多标签分类模块用于预测给定文本与给定类别的相关度。
6.如权利要求5所述的方法,其特征在于,所述单标签分类模块以给定文本在所有类别上的“文本-类别”向量作为输入,计算文本在每个类别的得分,并根据最高得分得到文本类别预测结果,其中“文本-类别”向量输入来自于多次加权组合模块的输出;所述多标签分类模块以加权组合模块所计算的“填充文本-类别”向量集合和“构成文本-类别”向量集合作为输入,分别计算两者的得分,若“构成文本-类别”向量集合得分大于“填充文本-类别”向量集合得分,则认为“构成文本”与类别相关,反之则无关。
7.如权利要求5所述的方法,其特征在于,步骤2)在模型学习时,选择单标签分类模块、多标签分类模块中的一种使用或者结合使用,并采用梯度下降优化算法计算损失函数对各个参数的梯度值,通过迭代指定次数得到最终模型参数;步骤3)使用单标签分类模块或多标签分类模块对句子类别进行预测。
8.一种基于人工智能的多级文本多标签分类系统,其特征在于,包括:
多级文本分类模块,用于利用神经网络构建多级文本多标签分类模型,并根据该模型得到训练文本的文本类别预测结果;
模型学习模块,用于根据训练文本中已有的文本类别标注信息与步骤1)得到的训练文本的文本类别预测结果,对多级文本多标签分类模型的参数进行学习,得到参数确定的多级文本多标签分类模型;
模型应用模块,用于利用参数确定的多级文本多标签分类模型对待分类文本进行分类;
所述多级文本分类模块包括加权组合模块、序列编码模块和分类预测模块;所述序列编码模块包括序列到向量编码模块以及序列到序列编码模块,所述序列到向量编码模块将向量序列输入转换为单个向量,所述序列到序列编码模块将向量序列输入转换为等长的新向量序列输出;所述分类预测模块包括单标签分类模块和多标签分类模块,所述单标签分类模块用于预测给定文本的唯一类别标签,所述多标签分类模块用于预测给定文本与给定类别的相关度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院信息工程研究所,未经中国科学院信息工程研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711063644.5/1.html,转载请声明来源钻瓜专利网。