[发明专利]一种提升人机交互对话语料质量与多样性的对话语料库生成方法有效
申请号: | 201911271656.6 | 申请日: | 2019-12-12 |
公开(公告)号: | CN111026884B | 公开(公告)日: | 2023-06-02 |
发明(设计)人: | 张献涛;张猛;暴筱;林小俊 | 申请(专利权)人: | 上海益商网络科技有限公司 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F18/22;G06F18/214 |
代理公司: | 北京君尚知识产权代理有限公司 11200 | 代理人: | 司立彬 |
地址: | 200441 上海市宝山*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 提升 人机交互 对话 语料 质量 多样性 语料库 生成 方法 | ||
本发明公开了一种提升人机交互对话语料质量与多样性的对话语料库生成方法。本方法为:1)对所选对话语料进行同义句扩展,形成一候选集合;2)对该候选集合中的每一对话语料进行异常检测,得到各对话语料的异常值;3)将异常值低于设定打分阈值的对话语料保存到提升后的对话语料库中;4)对异常值高于或等于该打分阈值的对话语料进行语义分析:如果是错误的对话数据,则直接丢弃;如果是多样性的对话数据,则执行步骤5);否则将当前对话语料保存到提升后的对话语料库中;5)将判定为多样性的对话数据重新作为输入,执行步骤1~4)直到达到暂停条件,停止迭代。本发明实现了对原始对话语料进行质量的控制和多样性的扩充。
技术领域
本发明属于信息技术、数据挖掘技术领域,涉及一种提升人机交互对话语料质量与多样性的对话语料库生成方法。
背景技术
随着科学技术的不断发展,各种人工智能的模型越来越多地应用在各种智能系统中,各种人机交互的需求被提出。如何能更有效的进行人机的交互,是一个目前需要急需解决的问题。当前,大部分的人机交互模型都是以数据驱动,在语料集(Corpus)上对模型进行训练,得到表现良好的参数结果,应用在系统中。因此一个高质量的语料起到越来越重要的作用。
人类在人机交互对话中,有着各类丰富的语言表达方式,并且对于语义理解的准确性要求较高。为了更好地训练出一个精准(accuracy)而鲁棒(robust)的模型,需要一个准确的高质量的对话语料库,并且,还需要对话语料尽量的丰富,表达方式多样。
中国专利ZL201510251428.8公开了一种语料筛选方法及装置,其中,该语料筛选方法包括:基于第一语料集合进行交叉校验,得到第一校验结果;判断第一校验结果是否满足第一预设条件;在判断出第一校验结果满足第一预设条件时,基于第一语料集合进行公开校验,得到第二校验结果;根据第二校验结果判断是否需要对第一语料集合进行筛选;以及在判断出需要对第一语料集合进行筛选时,对第一语料集合执行第一筛选处理。该方法解决了相关技术中筛选语料时受主观偏好影响造成训练样本质量不高的问题,进而达到了提高训练样本质量的效果。
中国专利ZL201310344326.1提供了一种训练语料扩充装置,包括:筛选单元,根据预设的语料筛选条件筛选出初始语料样本;扩充单元,按照所述初始语料样本和扩充策略对被收集的语料进行标识,得到扩充语料样本,以及基于所述扩充语料样本和所述扩充策略再次进行语料扩充。该方法通过自动化的方式对大规模的训练语料进行机器标注,从而大大节省制作大规模训练语料的时间周期和成本,并且可提高标注准确率。
当前,大部分的对于语料处理方式都是进行简单的清洗工作,依据不同的标准,去掉与预期或者整体分布不一致的“异常”的数据。本发明则关注在人机对话语料中的“异常”数据,将“异常”数据分为错误数据和特例数据两类。错误数据需要剔除,而特例数据则是一种比较特别的表述,不是常用的表达方法,但是可以增强语料中表述的多样性,需要保留下来,并要进一步扩充。最终提升人机交互对话语料的质量,利用此语料库提升后续模型训练的精度。
发明内容
针对现有技术中存在的技术问题,本发明的目的在于提供一种提升人机交互对话语料质量和多样性的方法。本发明是基于语料库的统计方法或机器学习方法,对原始对话语料进行质量的控制和多样性的扩充。
本发明采用的技术方案如下:
一种提升人机交互对话语料质量与多样性的方法,包括如下步骤:
1)、对输入的所选对话语料进行同义句扩展,形成候选集合;
2)、对候选集合中的对话语料进行异常检测,输出每一条对话语料的异常值打分;
3)、根据打分进行排序,根据相邻最大差异法确定阈值,打分低于阈值者保存到提升后的对话语料库中;
4)、对异常值打分高于阈值者的异常点进一步语义分析:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海益商网络科技有限公司,未经上海益商网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911271656.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种车用尿素溶液用搅拌装置
- 下一篇:一种脱脂率高的松木脱脂方法