[发明专利]一种语料混淆处理方法、装置及介质有效
申请号: | 202011438908.2 | 申请日: | 2020-12-10 |
公开(公告)号: | CN112507093B | 公开(公告)日: | 2023-08-11 |
发明(设计)人: | 尤翔远;周玉立;王刚;刘俊杰;沈懿忱;陈达 | 申请(专利权)人: | 亿企赢网络科技有限公司 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/33;G06F40/216;G06F40/30;G06F18/214;G06N3/0464;G06N3/08 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 丁曼曼 |
地址: | 200120 上海市浦东新区中国*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 语料 混淆 处理 方法 装置 介质 | ||
本申请公开了一种语料混淆处理方法包括获取待处理数据,从初始用户问中剔除存在混淆的用户问,而保留不存在混淆的用户问作为目标用户问;再将目标用户问和对应的目标标准问作为训练样本对所调用的分类模型进行训练;最后基于训练结果对目标用户问和目标标准问进行修复,直到训练结果满足预设要求为止。由此可见,应用于以上技术方案,通过对用户问进行筛选,可以发现并修复误标注的问题,从而提高训练样本的质量,进而提高分类模型的预测结果的准确性。此外本申请所公开的语料混淆处理装置及介质,与上述方法对应,效果同上。
技术领域
本申请涉及智能问答技术领域,特别是涉及一种语料混淆处理方法、装置及介质。
背景技术
智能问答模式的兴起,极大的解放了人工问答,不能节约人力成本,而且易于维护,在多种领域得到广泛应用,例如,税务领域。为了实现自动问答,需要将输入的用户问(也称之为语料)进行分类,从而得到与该用户问对应的标准问(也称之为标签),在该过程中,就需要用到分类模型(深度学习模型),分类模型通常是基于搜集到的用户问和标准问训练得到的。
当前,在模型训练过程中直接将获取的训练样本进行训练,但是由于训练样本中有的用户问很相近,但是标注方法参差不齐,很容易出现误标注的问题。如果将存在误标注问题的训练样本对模型进行训练,会导致模型的预测结果的准确性降低,即输出的结果本来是标准问A,而输出了标准问B。
由此可见,如何防止误标注问题,从而提高分类模型的准确性是本领域技术人员亟待解决的问题。
发明内容
本申请的目的是提供一种语料混淆处理方法、装置及介质,用于提高分类模型的准确度,防止误标注问题。
为解决上述技术问题,本申请提供一种语料混淆处理方法,包括:
获取待处理数据,所述待处理数据包括初始用户问和对应的标准问;
剔除所述初始用户问中存在混淆的用户问以得到目标用户问;
将所述目标用户问和对应的目标标准问作为训练样本对所调用的分类模型进行训练;
基于训练结果对所述目标用户问和所述目标标准问进行修复,直到所述训练结果满足预设要求为止。
优选地,所述筛选出所述初始用户问中存在混淆的用户问以得到目标用户问包括:
将全部所述初始用户问做笛卡尔积,并两两组成句子对;
计算每个所述句子对的编辑距离;
筛选出所述编辑距离大于所述第一阈值的句子对中的用户问作为所述目标用户问。
优选地,所述剔除所述初始用户问中存在混淆的用户问以得到目标用户问还包括:
利用预先训练的特征提取模型对所述目标用户问进行特征提取;其中,所述特征提取模型通过通用语料训练样本训练得到;
根据特征提取的结果确定两两所述目标用户问构成的句子对之间的相似度;
筛选出所述相似度不大于第二阈值的句子对中的用户问作为所述目标用户问。
优选地,所述剔除所述初始用户问中存在混淆的用户问以得到目标用户问还包括:
获取所述相似度大于第二阈值的待确定句子对;
若同一个待确定句子对中的两个用户问对应的标准问相同,且两个用户问不全部为所述目标用户问,则将其中一个不为所述目标用户问的用户问保留以作为所述目标用户问。
优选地,所述剔除所述初始用户问中存在混淆的用户问以得到目标用户问还包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于亿企赢网络科技有限公司,未经亿企赢网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011438908.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种用于干式直流变频电容器的定位卡扣
- 下一篇:一种预制阳台板及其施工方法