[发明专利]一种数据处理方法、装置及计算机可读存储介质有效
申请号: | 201911114440.9 | 申请日: | 2019-11-14 |
公开(公告)号: | CN111046655B | 公开(公告)日: | 2023-04-07 |
发明(设计)人: | 林振斌;王晓利 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F40/279 | 分类号: | G06F40/279;G06F18/214;G06F18/2433;G06N3/088 |
代理公司: | 深圳翼盛智成知识产权事务所(普通合伙) 44300 | 代理人: | 彭绪坤 |
地址: | 518057 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据处理 方法 装置 计算机 可读 存储 介质 | ||
1.一种数据处理方法,其特征在于,包括:
采集正词对样本数据和负词对样本数据;
根据所述正词对样本数据和负词对样本数据对自编码器进行训练,得到训练后的自编码器;
通过训练后的自编码器提取所述正词对样本数据和负词对样本数据相应的特征信息;其中,所述通过训练后的自编码器提取所述正词对样本数据和负词对样本数据相应的特征信息,包括:
将所述正词对样本数据中待处理下位词对应的下位词向量和所述负词对样本数据中待处理下位词对应的下位词向量输入所述训练后的自编码器,得到所述待处理下位词的预测关系向量,其中所述待处理下位词为所述正词对样本数据和所述负词对样本数据中共有的下位词;
根据所述正词对样本数据中与所述待处理下位词对应的上位词,确定正目标关系向量;
根据所述负词对样本数据中与所述待处理下位词对应的上位词,确定负目标关系向量;
计算所述正目标关系向量和所述预测关系向量之间的正匹配度;
计算所述负目标关系向量和所述预测关系向量之间的负匹配度;
根据所述正匹配度与所述负匹配度生成特征信息;
将所述特征信息输入至二分类器中进行训练,得到训练后的二分类器;
结合所述训练后的自编码器和训练后的二分类器对待识别词对数据的上下位关系进行识别。
2.根据权利要求1所述的数据处理方法,其特征在于,所述根据所述正词对样本数据和负词对样本数据对自编码器进行训练,得到训练后的自编码器的步骤,包括:
将所述正词对样本数据和负词对样本数据输入至自编码器中;
控制所述自编码器迭代计算所述正词对样本数据和所述负词对样本数据之间的差异值,直至所述差异值满足收敛条件,得到训练后的自编码器。
3.根据权利要求2所述的数据处理方法,其特征在于,所述控制所述自编码器迭代计算所述正词对样本数据和所述负词对样本数据之间的差异值,直至所述差异值满足收敛条件,得到训练后的自编码器的步骤,包括:
控制所述自编码器对所述正词对样本数据和负词对样本数据进行损失运算,获取正词对损失数据和负词对损失数据;
计算所述正词对损失数据和负词对损失数据之间的差异值;
当检测到所述差异值不满足收敛条件时,根据所述差异值更新所述自编码器中的网络损失参数,并返回执行控制所述自编码器对所述正词对样本数据和负词对样本数据进行损失运算,获取正词对损失数据和负词对损失数据的步骤;
当检测到所述差异值满足收敛条件时,得到训练后的自编码器。
4.根据权利要求3所述的数据处理方法,其特征在于,所述
根据所述正匹配度生成相应的正特征信息,并根据所述负匹配度生成相应的负特征信息;
将所述正特征信息和负特征信息确定为特征信息。
5.根据权利要求4所述的数据处理方法,其特征在于,所述将所述特征信息输入至二分类器中进行训练,得到训练后的二分类器的步骤,包括:
将所述正特征信息和正目标阈值输入至二分类器中进行训练;
将所述负特征信息和负目标阈值输入至二分类器中进行训练,得到训练后的二分类器。
6.根据权利要求1至5任一项所述的数据处理方法,其特征在于,所述采集正词对样本数据和负词对样本数据的步骤,包括:
采集正词对样本数据;
采集预设的初始负词对样本数据,并将所述初始负词对样本数据输入预设变分自编码器中,生成基于初始负词对样本数据相应的衍生负词对样本数据;
将所述初始负词对样本数据和衍生负词对样本数据合并为负词对样本数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911114440.9/1.html,转载请声明来源钻瓜专利网。