[发明专利]文本机器人交叉验证优化方法及装置在审
申请号: | 202010903444.1 | 申请日: | 2020-09-01 |
公开(公告)号: | CN112035666A | 公开(公告)日: | 2020-12-04 |
发明(设计)人: | 梁雨霏 | 申请(专利权)人: | 中国银行股份有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06N20/00;G06F16/332 |
代理公司: | 北京三友知识产权代理有限公司 11127 | 代理人: | 谷敬丽;吴学锋 |
地址: | 100818 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 机器人 交叉 验证 优化 方法 装置 | ||
本发明提供的文本机器人交叉验证优化方法及装置,可以从知识库存储的全量语料数据中抽取语料用于文本机器人的模型训练和测试,筛选应答错误的语料构成误判语料集,然后对误判语料集进行分类处理和原因判断,帮助开发和测试人员完成问题定位,大大缩短了问题定位需要的时间,提高了系统改进的效率。
技术领域
本发明涉及文本机器人交叉验证优化技术领域,具体涉及文本机器人交叉验证优化方法及装置。
背景技术
为评估专业领域文本机器人的应答效果,以往采用交叉验证的方法,将语料数据分为训练集和测试集,分别用于机器人模型训练和测试评估,依据验证结果对机器人应答效果进行打分。使用该方法能够得到机器人应答效果的整体评价,进一步改进机器人性能仍需要测试人员手工验证和查找问题。当机器人涉及专业领域覆盖的业务场景较复杂时,需要耗费大量的人力和时间成本定位问题,目前主要应用交叉验证法对文本机器人作整体评估,评估得分反映系统应答效果,当应答效果不佳时需要测试人员手工查找问题缺陷。
发明内容
针对现有技术中的问题,本发明提供一种文本机器人交叉验证优化方法及装置。
为解决上述技术问题,本发明提供以下技术方案:
本发明的一个方面实施例提供一种文本机器人交叉验证优化方法,包括:
利用已标记预设正确答复语句的询问语句测试多个语料模型,每个应答语料模型输出对应的答复语句,所述多个语料模型是利用多组语料训练集训练机器学习模型得到,每组语料训练集包括多个问答语句对,每个问答语句对包括一询问语句和对应的一答复语句;所述问答语句对是文本机器人与客户进行信息交互产生的;
比对所述预设正确答复语句与每个应答语料模型输出的答复语句,生成答复正误对照表;
根据所述答复正误对照表中错误答复语句的数量优化所述机器学习模型的算法或者优化包括所述问答语句对的语料库。
在优选的实施例中,还包括:采集文本机器人与客户信息交互过程中的问答语句对,形成语料库。
在优选的实施例中,还包括:建立所述机器学习模型。
在优选的实施例中,还包括:
采集文本机器人与客户进行信息交互产生的问答语句对,生成所述语料库;
对所述语料库进行多次随机抽取,得到多组语料训练集。
在优选的实施例中,所述根据所述答复正误对照表中错误答复语句的数量优化所述机器学习模型的算法或者优化包括所述问答语句对的语料库,包括:
针对同一询问语句,若所述答复正误对照表中对应答复语句错误率高于设定阈值,将该询问语句加入误判集合;
根据错误答复语句的数量和同一询问语句对应的所有答复语句的数量,结合所述答复语句错误率对该询问语句进行分类;
根据每个询问语句所处的分类,优化所述机器学习模型的算法或者优化包括所述问答语句对的语料库。
在优选的实施例中,所述根据错误答复语句的数量和同一询问语句对应的所有答复语句的数量,结合所述答复语句错误率对该询问语句进行分类,包括:
若所述错误答复语句的数量低于第一设定阈值,并且所有答复语句的数量低于第二设定阈值,将该询问语句分类至第一类别;
若所述错误答复语句的数量低于第一设定阈值,并且所有答复语句的数量高于第二设定阈值,将该询问语句分类至第二类别;
若所述错误答复语句的数量高于第一设定阈值,并且所有答复语句的数量高于第二设定阈值,将该询问语句分类至第三类别。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国银行股份有限公司,未经中国银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010903444.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:批量报文自动组报方法及装置
- 下一篇:基于代发薪客户交易行为的营销方法和装置