[发明专利]基于人机交互的数据清洗方法、回复方法、装置及介质在审
申请号: | 201910467497.0 | 申请日: | 2019-05-31 |
公开(公告)号: | CN110209898A | 公开(公告)日: | 2019-09-06 |
发明(设计)人: | 邱楠;宋亚楠;梁剑华;邵浩;程谦;丁玉龙;刘海峡;孙铭浩;刘振岩 | 申请(专利权)人: | 苏州狗尾草智能科技有限公司 |
主分类号: | G06F16/9032 | 分类号: | G06F16/9032;G06F16/906;G06F16/951 |
代理公司: | 北京酷爱智慧知识产权代理有限公司 11514 | 代理人: | 占丽君 |
地址: | 215008 江苏省苏州*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 人机交互 清洗 数据清洗 筛选 对话 预处理 数据增加 中文字符 库数据 匹配性 分词 去除 句子 回复 话题 | ||
1.一种基于人机交互的数据清洗方法,其特征在于,包括以下步骤:
获取人机交互数据;
对所述人机交互数据依次进行非中文字符去除、分词筛选、匹配性筛选和句子通顺性筛选后,以获得清洗数据。
2.根据权利要求1所述基于人机交互的数据清洗方法,其特征在于,
所述获取人机交互数据具体包括:
利用爬虫爬取网络或设备上的人机交互数据;
所述人机交互数据包括人机交互对话和/或影视剧的影视对话。
3.根据权利要求1所述基于人机交互的数据清洗方法,其特征在于,
所述对所述人机交互数据进行非中文字符去除具体包括:
去除人机交互数据中不符合预设的编码范围内的数据,以获得中文字符数据;
所述编码范围包括Unicode编码范围。
4.根据权利要求3所述基于人机交互的数据清洗方法,其特征在于,
所述分词筛选具体包括:
读取所述中文字符数据;
对所述中文字符数据进行分词;
将所述分词后的数据分别与预设的词向量词组库进行对比,剔除掉不在所述词向量词组库中的数据,以得到分词对话。
5.根据权利要求4所述基于人机交互的数据清洗方法,其特征在于,
所述匹配性筛选具体包括:
读取所述分词对话;
按照预设比例从所述分词对话中筛选出若干个对话;
对筛选出的对话进行拆分,分为问句和答句;
将所述问句和答句进行随机配对,获得错误对话和正确对话;
以所述错误对话和正确对话作为输入对话,构建训练模型;
通过所述训练模型获得输入对话的匹配程度,剔除匹配程度低于预设的匹配阈值的对话,以获得匹配对话。
6.根据权利要求5所述基于人机交互的数据清洗方法,其特征在于,
所述将所述问句和答句进行随机配对,获得错误对话和正确对话具体包括:
将所述问句和答句进行随机配对;
获得配对后回答错误的组合,按照所述预设比例筛选出若干个回答错误的组合,定义为所述错误对话;
获得配对后回答正确的组合,定义为所述正确对话。
7.根据权利要求5所述基于人机交互的数据清洗方法,其特征在于,
所述句子通顺性筛选具体包括:
基于预设的句子库采用bert对所述训练模型进行预训练,根据句子的语义信息和位置编码信息对输入的对话中的句子进行分类,将句子分为通顺或不通顺,剔除不通顺的句子,以得到所述清洗数据。
8.一种基于人机交互的回复方法,其特征在于,包括以下步骤:
采用seq2seq模型训练权利要求1-7中任一权利要求获得的清洗数据,以得到最终模型;
将待回复问句传输给所述最终模型,以获得若干个不同的答句。
9.一种装置,其特征在于,包括处理器、输入设备、输出设备和存储器,所述处理器、输入设备、输出设备和存储器相互连接,其中,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行如权利要求1-7任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行如权利要求1-7任一项所述的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州狗尾草智能科技有限公司,未经苏州狗尾草智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910467497.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:智能对话方法、装置、存储介质及设备
- 下一篇:个性化学习资源推荐系统