[发明专利]文本数据处理方法及装置在审
申请号: | 202110350842.X | 申请日: | 2021-03-31 |
公开(公告)号: | CN113033212A | 公开(公告)日: | 2021-06-25 |
发明(设计)人: | 胡锐;陈震宇;刘国华 | 申请(专利权)人: | 中国邮政储蓄银行股份有限公司 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F16/35;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 北京康信知识产权代理有限责任公司 11240 | 代理人: | 黄海英 |
地址: | 100032*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 数据处理 方法 装置 | ||
1.一种文本数据处理方法,其特征在于,包括:
获取文本数据对应的词向量表示;
采用目标分类模型对所述词向量表示进行处理,得到所述文本数据所对应的分类结果,其中,所述目标分类模型包括卷积层、双向门控循环单元以及分类器,所述卷积层用于提取所述文本数据的第一特征序列,所述双向门控循环单元用于基于所述第一特征序列提取所述文本数据的第二特征序列,所述分类器用于基于目标权重对所述第二特征序列进行分类,得到所述分类结果,其中,所述目标权重由所述文本数据的所述第一特征序列和所述第二特征序列确定。
2.根据权利要求1所述的方法,其特征在于,所述采用目标分类模型对所述词向量表示进行处理,得到所述文本数据所对应的分类结果包括:
通过所述卷积层提取所述文本数据的第一特征序列;
通过所述双向门控循环单元对所述第一特征序列进行处理,得到所述文本数据的第二特征序列;
基于所述文本数据的所述第一特征序列以及所述第二特征序列确定所述目标权重;
通过所述分类器基于所述目标权重对所述第二特征序列进行分类,得到所述分类结果。
3.根据权利要求2所述的方法,其特征在于,所述文本数据对应的词向量表示为词矩阵,所述通过所述卷积层提取所述文本数据的第一特征序列包括:
通过在所述词矩阵上移动滤波器对应的窗口,构造多个第一特征,其中,所述滤波器为所述卷积层中的滤波器;
由所述多个第一特征构成第一特征序列。
4.根据权利要求2所述的方法,其特征在于,所述双向门控循环单元包括正向门循环单元和逆向门循环单元,所述通过所述双向门控循环单元对所述第一特征序列进行处理,得到所述文本数据的第二特征序列包括:
通过所述正向门控循环单元对所述第一特征序列进行处理,得到所述正向门控循环单元的隐藏层输出的特征序列;
通过所述逆向门控循环单元对所述第二特征序列进行处理,得到所述逆向门控循环单元的隐藏层输出的特征序列;
由所述正向门控循环单元的隐藏层输出的特征序列和所述逆向门控循环单元的隐藏层输出的特征序列构成所述第二特征序列。
5.根据权利要求4所述的方法,其特征在于,
所述通过所述正向门控循环单元对所述第一特征序列进行处理,得到所述正向门控循环单元的隐藏层输出的特征序列包括:
确定所述正向门控循环单元的更新门和重置门,并通过所述正向门控循环单元的更新门和重置门对所述第一特征序列进行处理,得到所述正向门控循环单元的隐藏层输出的特征序列;
所述通过所述逆向门控循环单元对所述第二特征序列进行处理,得到所述逆向门控循环单元的隐藏层输出的特征序列包括:
确定所述逆向门控循环单元的更新门和重置门,并通过所述逆向门控循环单元的更新门和重置门对所述第一特征序列进行处理,得到所述逆向门控循环单元的隐藏层输出的特征序列。
6.根据权利要求4所述的方法,其特征在于,所述基于所述文本数据的所述第一特征序列以及所述第二特征序列确定所述目标权重包括:
基于所述正向门控循环单元的隐藏层输出的特征序列、所述第一特征序列以及多个第一权重矩阵确定第一权重;
基于所述逆向门控循环单元的隐藏层输出的特征序列、所述第一特征序列以及多个第二权重矩阵确定第二权重;
对所述第一权重和所述第二权重进行相加,得到所述目标权重。
7.根据权利要求1所述的方法,其特征在于,在所述采用目标分类模型对所述词向量表示进行处理,得到所述文本数据所对应的分类结果之前,所述方法还包括:
采用已标注的输入数据和已标注的输出数据训练预设模型,得到初始目标分类模型;
通过所述初始目标分类模型对未标注的输入数据进行处理,得到预测输出数据;
由所述已标注的输入数据、所述已标注的输出数据、所述未标注的输入数据以及所述预测输出数据构成训练集数据;
从所述训练集数据中抽取多组数据,得到目标训练集数据,并采用所述目标训练集数据训练所述预设模型,得到所述目标分类模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国邮政储蓄银行股份有限公司,未经中国邮政储蓄银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110350842.X/1.html,转载请声明来源钻瓜专利网。