[发明专利]一种语料混淆处理方法、装置及介质有效
申请号: | 202011438908.2 | 申请日: | 2020-12-10 |
公开(公告)号: | CN112507093B | 公开(公告)日: | 2023-08-11 |
发明(设计)人: | 尤翔远;周玉立;王刚;刘俊杰;沈懿忱;陈达 | 申请(专利权)人: | 亿企赢网络科技有限公司 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/33;G06F40/216;G06F40/30;G06F18/214;G06N3/0464;G06N3/08 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 丁曼曼 |
地址: | 200120 上海市浦东新区中国*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 语料 混淆 处理 方法 装置 介质 | ||
1.一种语料混淆处理方法,其特征在于,包括:
获取待处理数据,所述待处理数据包括初始用户问和对应的标准问;
剔除所述初始用户问中存在混淆的用户问以得到目标用户问;
将所述目标用户问和对应的目标标准问作为训练样本对所调用的分类模型进行训练;
基于训练结果对所述目标用户问和所述目标标准问进行修复,直到所述训练结果满足预设要求为止;
其中,所述剔除所述初始用户问中存在混淆的用户问以得到目标用户问进一步包括:
将全部所述初始用户问做笛卡尔积,并两两组成句子对;
计算每个所述句子对的编辑距离;
筛选出所述编辑距离大于第一阈值的句子对中的用户问作为所述目标用户问;
利用预先训练的特征提取模型对所述目标用户问进行特征提取;其中,所述特征提取模型通过通用语料训练样本训练得到;
根据特征提取的结果确定两两所述目标用户问构成的句子对之间的相似度;
筛选出所述相似度不大于第二阈值的句子对中的用户问作为所述目标用户问;
获取所述相似度大于第二阈值的待确定句子对;
若同一个待确定句子对中的两个用户问对应的标准问相同,且两个用户问不全部为所述目标用户问,则将其中一个不为所述目标用户问的用户问保留以作为所述目标用户问;
若同一个所述待确定句子对中的两个所述用户问对应的标准问不相同,则筛选出所述相似度大于第三阈值的待确定句子对以进行人工校验;其中,所述第三阈值大于第二阈值;
根据人工校验结果将符合要求的用户问保留以作为所述目标用户问。
2.根据权利要求1所述的语料混淆处理方法,其特征在于,所述将所述目标用户问和对应的目标标准问作为训练样本对所调用的分类模型进行训练包括:
按照K折交叉验证将所述目标用户问和对应的目标标准问作为训练样本对所调用的分类模型进行训练。
3.根据权利要求2所述的语料混淆处理方法,其特征在于,所述基于训练结果对所述目标用户问和所述目标标准问进行修复,直到所述训练结果满足预设要求为止包括:
获取所述K折交叉验证所得到的首次预测结果;
依据所述首次预测结果计算每个标准问对应的F1-Socre以及所述训练样本的整体micro-F1;
若所述整体micro-F1满足所述预设要求,则确定所述目标用户问和所述目标标准问不需要修复;
若所述整体micro-F1不满足所述预设要求,则通过F1-Socre挑选出需要修复的所述目标标准问,并依据所述首次预测结果筛选出预测错误的结果和预测正确的结果;
将预测错误的结果对应的用户问和标准问作为复杂样本,将预测正确的结果对应的用户问和标准问作为简单样本;
将所述简单样本再次作为训练样本对所述分类模型进行训练;
将所述复杂样本中的用户问输入至再次训练的所述分类模型得到二次预测结果;
根据所述二次预测结果挑选出所述复杂样本中需要修复的用户问和标准问;
获取对需要修复的目标标准问的修复结果和对需要修复的用户问和标准问的修复结果;
依据所述修复结果得到新的待处理数据,并返回所述剔除所述初始用户问中存在混淆的用户问以得到目标用户问的步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于亿企赢网络科技有限公司,未经亿企赢网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011438908.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种用于干式直流变频电容器的定位卡扣
- 下一篇:一种预制阳台板及其施工方法