[发明专利]一种提升人机交互对话语料质量与多样性的对话语料库生成方法有效
申请号: | 201911271656.6 | 申请日: | 2019-12-12 |
公开(公告)号: | CN111026884B | 公开(公告)日: | 2023-06-02 |
发明(设计)人: | 张献涛;张猛;暴筱;林小俊 | 申请(专利权)人: | 上海益商网络科技有限公司 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F18/22;G06F18/214 |
代理公司: | 北京君尚知识产权代理有限公司 11200 | 代理人: | 司立彬 |
地址: | 200441 上海市宝山*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 提升 人机交互 对话 语料 质量 多样性 语料库 生成 方法 | ||
1.一种提升人机交互对话语料质量与多样性的对话语料库生成方法,其步骤包括:
1)对所选对话语料进行同义句扩展,形成一候选集合;生成所述候选集合的方法为:11)每次从对话语料中选取相邻的两个词与进行交换,得到若干个扩展后的句子;12)利用停用词词典删除每一扩展后的句子中的停用词;13)利用同义词词典判断每一句子中的每一分词是否有同义词,如果有则利用同义词词典中的同义词替换掉对应的分词,将每一句子扩展为若干个句子;14)对于扩展后的每个句子,先将其翻译为第一中间语言,再由第一中间语言翻译到第二中间语言,再从第二中间语言再翻译回原语言或再经若干次语言转换后翻译为原语言;然后比较多次翻译转换后的返回结果与原始语句是否一致,如果不一致,则保存该返回结果与原始语句到候选集合,否则将原始语句保存到候选集合中;
2)对该候选集合中的每一对话语料进行异常检测,得到各对话语料的异常值;
3)将异常值低于设定打分阈值的对话语料保存到提升后的对话语料库中;
4)对异常值高于或等于该打分阈值的对话语料进行语义分析:如果是错误的对话数据,则直接丢弃;如果是多样性的对话数据,则执行步骤5);否则将当前对话语料保存到提升后的对话语料库中;
5)将判定为多样性的对话数据重新作为输入,执行步骤1~4)直到达到暂停条件,停止迭代。
2.如权利要求1所述的方法,其特征在于,步骤11)的词序交换、步骤12)的停用词删减、步骤13)的同义词替换、步骤14)的跨语种翻译处理对应一跳过概率,用于设定跳过执行对应步骤处理的概率。
3.如权利要求1所述的方法,其特征在于,步骤2)中,首先对该候选集合中每一对话语料分词后的所有句子进行向量化,得到一设定长度的向量dtext;然后对该候选集合中所有对话语料对应的向量求平均值,得到平均向量dmean;然后计算每一向量dtext与平均向量dmean的距离,将该距离作为对应对话语料的差异值。
4.如权利要求3所述的方法,其特征在于,所述距离为其中,threshold是定义的阈值,N为向量的维度,xi为向量dtext中的第i维分量,di为平均向量dmean中的第i维分量。
5.如权利要求1所述的方法,其特征在于,步骤3)中,根据相邻最大差异法确定所述打分阈值;其中相邻最大差异法为:
31)根据异常值对各对话语料进行排序,得到的排序结果记为:(Sentence1,Score1),(Sentence2,Score2),..,(Sentencen,Scoren);Sentencen为第n个对话语料对应的句子,Scoren第n个对话语料的异常值;
32)计算相邻排序的差异
33)取步骤32)所得结果中最大的差异值,记为Deltaq;将Deltaq对应的两相邻异常值Scoreq、Scoreq-1的平均值作为打分阈值Scorethreshold。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海益商网络科技有限公司,未经上海益商网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911271656.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种车用尿素溶液用搅拌装置
- 下一篇:一种脱脂率高的松木脱脂方法