[发明专利]一种数据处理方法、装置、计算机设备及存储介质有效
申请号: | 202010237278.6 | 申请日: | 2020-03-30 |
公开(公告)号: | CN111460783B | 公开(公告)日: | 2021-07-27 |
发明(设计)人: | 缪畅宇 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F40/194 | 分类号: | G06F40/194;G06F40/284 |
代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 熊永强;杜维 |
地址: | 518057 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据处理 方法 装置 计算机 设备 存储 介质 | ||
1.一种数据处理方法,其特征在于,包括:
基于第一文本数据的第一分词、第二文本数据的第二分词以及与第一模型相关联的关键词,确定与所述第一模型相关联的第一分类特征和第二分类特征;所述第一分类特征包含与所述关键词不存在关联关系的文本词的特征;所述第二分类特征包含与所述关键词存在关联关系的文本词的特征;所述文本词包含所述第一分词、所述第二分词以及由所述第一分词与所述第二分词所构成的组合词;所述组合词包括由所述第一分词所构成的第一自相关词、由所述第二分词所构成的第二自相关词以及由所述第一分词和所述第二分词所构成的互相关词;
确定所述第一分类特征对应的第一词向量以及所述第二分类特征对应的第二词向量;
对所述第一词向量中的值进行变更处理,将变更处理后的第一词向量中的值作为第一固定值,基于所述第一固定值和所述第二词向量中的值对所述第一模型进行预训练,得到第二模型;
对所述第二词向量中的值进行变更处理,将变更处理后的第二词向量中的值作为第二固定值,基于所述第一固定值和所述第二固定值,对所述第二模型进行叠加训练;
在检测到叠加训练后的第二模型满足模型收敛条件时,将所述叠加训练后的第二模型确定为用于对目标样本对的匹配度进行预测的目标模型。
2.根据权利要求1所述的方法,其特征在于,所述基于第一文本数据的第一分词、第二文本数据的第二分词以及与第一模型相关联的关键词,确定与所述第一模型相关联的第一分类特征和第二分类特征,包括:
获取第一文本数据的第一分词以及第二文本数据的第二分词;
获取由所述第一分词所构成的第一自相关词对应的组合特征信息,获取由所述第二分词所构成的第二自相关词对应的组合特征信息,获取由所述第一分词和所述第二分词所构成的互相关词对应的组合特征信息;
将所述第一自相关词对应的组合特征信息、所述第二自相关词对应的组合特征信息以及所述互相关词对应的组合特征信息,作为待处理特征信息;
基于与所述第一模型相关联的关键词,将所述待处理特征信息划分为与所述关键词不存在关联关系的第一分类特征,以及与所述关键词存在关联关系的第二分类特征。
3.根据权利要求2所述的方法,其特征在于,所述获取第一文本数据的第一分词以及第二文本数据的第二分词,包括:
获取第一文本数据,对所述第一文本数据进行预分词处理,得到所述第一文本数据对应的第一分词集合;
获取第二文本数据,对所述第二文本数据进行预分词处理,得到所述第二文本数据对应的第二分词集合;
确定所述第一分词集合中的每个分词进行组合后所得到的组合字符串的第一条件概率值,将具有最大第一条件概率值的第一分词集合中的分词作为所述第一文本数据的第一分词;
确定所述第二分词集合中的每个分词进行组合后所得到的组合字符串的第二条件概率值,将具有最大第二条件概率值的第二分词集合中的分词作为所述第二文本数据的第二分词。
4.根据权利要求2所述的方法,其特征在于,所述获取由所述第一分词所构成的第一自相关词对应的组合特征信息,获取由所述第二分词所构成的第二自相关词对应的组合特征信息,获取由所述第一分词和所述第二分词所构成的互相关词对应的组合特征信息,包括:
获取与所述第一模型相关联的特征组合值K;所述特征组合值K用于表征对所述第一分词和所述第二分词分别进行特征组合时的总分词数量,所述K=2;
将所述第一分词中的分词进行两两组合,在所述第一文本数据中将两两组合后的组合词作为第一自相关词,确定所述第一自相关词对应的组合特征信息;
将所述第二分词中的分词进行两两组合,在所述第二文本数据中将两两组合后的组合词作为第二自相关词,确定所述第二自相关词对应的组合特征信息;
将所述第一分词中的分词与所述第二分词中的分词进行两两组合,在所述第一文本数据以及所述第二文本数据中,将两两组合后的组合词作为互相关词,确定所述互相关词对应的组合特征信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010237278.6/1.html,转载请声明来源钻瓜专利网。