[发明专利]基于改进seq2seq模型的多源多标签文本分类方法及其系统有效
申请号: | 201811302126.9 | 申请日: | 2018-11-02 |
公开(公告)号: | CN109299273B | 公开(公告)日: | 2020-06-23 |
发明(设计)人: | 谢松县;高辉;陈仲生;彭立宏;曾道建;桂林;封黎;李磊 | 申请(专利权)人: | 广州语义科技有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/289;G06N3/04;G06N3/08 |
代理公司: | 长沙国科天河知识产权代理有限公司 43225 | 代理人: | 邱轶 |
地址: | 510623 广东省广州市天河区珠江东路32号利通*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 改进 seq2seq 模型 多源多 标签 文本 分类 方法 及其 系统 | ||
1.一种基于改进seq2seq模型的多源多标签文本分类方法,其特征在于,该方法包括如下步骤:
步骤1、数据输入及预处理,对输入的多源文本语料进行分词、去停用词,构建输入语料中文词表,将所述输入语料中文词表序号化;构建包含所有分类标签的标签词表,将输入语料原始标签序号化,生成输入语料原始标签序列;
步骤2、词嵌入,根据所述输入语料中文词表将输入的所述多源文本语料数值化表示,并将数值化表示的所述多源文本语料输入到嵌入层中以得到各所述多源文本语料的词嵌入矩阵;
步骤3、编码,将所述词嵌入矩阵传递到编码层中,所述编码层包括多个编码器,每个所述多源文本语料对应一个所述编码器,利用双向循环神经网络对所述多源文本语料进行编码学习,得到表示各所述多源文本语料的编码;
步骤4、编码拼接,将所述编码输出并进行首尾拼接,得到汇总编码信息;
步骤5、解码,将所述汇总编码信息输入到采用注意力机制的解码层进行解码,得到解码输出;
步骤6、将所述解码输出得到的序列与输入语料原始标签序列代入损失函数进行比对,并利用误差反向传播算法优化系统参数,并保存参数优化后的模型;所述损失函数对标签顺序不敏感;
步骤7、预测输出,对于未知标签的一组多源文本数据经过步骤1-步骤5的处理得到解码输出,将所述解码输出经过softmax层进行归一化处理,输出大于预设的阈值的解码序列,根据所述解码序列在标签词表中找出相应的分类标签,所述相应的分类标签即为预测结果。
2.根据权利要求1所述的基于改进seq2seq模型的多源多标签文本分类方法,其特征在于,在步骤1中,所述输入语料中文词表按照词频高低进行序号化。
3.根据权利要求1所述的基于改进seq2seq模型的多源多标签文本分类方法,其特征在于,在步骤3中,所述编码层为seq2seq编码层。
4.根据权利要求1或3所述的基于改进seq2seq模型的多源多标签文本分类方法,其特征在于,在步骤5中,所述解码层采用单向循环神经网络。
5.根据权利要求4所述的基于改进seq2seq模型的多源多标签文本分类方法,其特征在于,在步骤5中,所述解码层包括解码器。
6.根据权利要求1所述的基于改进seq2seq模型的多源多标签文本分类方法,其特征在于,在步骤7中,所述softmax层采用softmax函数对所述解码输出进行归一化处理。
7.一种基于改进seq2seq模型的多源多标签文本分类系统,其特征在于,该系统包括:
数据输入及预处理模块,对输入的多源文本语料进行分词,构建输入语料中文词表,将所述输入语料中文词表序号化;构建包含所有分类标签的标签词表,将输入语料原始标签序号化,生成输入语料原始标签序列;
词嵌入模块,根据所述输入语料中文词表将输入的所述多源文本语料数值化表示,并将数值化表示的所述多源文本语料输入到嵌入层中以得到各所述多源文本语料的词嵌入矩阵;
编码模块,将所述词嵌入矩阵传递到编码层中,所述编码层包括多个编码器,每个所述多源文本语料对应一个所述编码器,利用双向循环神经网络对所述多源文本语料进行编码学习,得到表示各所述多源文本语料的编码;
编码拼接模块,将所述编码输出并进行首尾拼接,得到汇总编码信息;
解码模块,将所述汇总编码信息输入到采用注意力机制的解码层进行解码,得到解码输出;
模型优化模块,将所述解码输出得到的序列与输入语料原始标签序列代入损失函数进行比对,所述损失函数对标签顺序不敏感,并利用误差反向传播方法优化系统参数,最后保存模型;
预测输出模块,对于未知标签的一组多源文本数据,使用模型优化模块训练得到的模型,依次经过数据输入及预处理模块、词嵌入模块、编码模块、编码拼接模块、解码模块处理,得到解码输出,将所述解码输出经过softmax层进行归一化处理,输出大于预设的阈值的解码序列,根据所述解码序列在标签词表中找出相应的分类标签,所述分类标签即为预测结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州语义科技有限公司,未经广州语义科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811302126.9/1.html,转载请声明来源钻瓜专利网。