[发明专利]验证分类器的训练数据在审
申请号: | 201910640341.8 | 申请日: | 2019-07-16 |
公开(公告)号: | CN110781293A | 公开(公告)日: | 2020-02-11 |
发明(设计)人: | 小林武彦;松泽裕史 | 申请(专利权)人: | 国际商业机器公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/332;G06K9/62 |
代理公司: | 11256 北京市金杜律师事务所 | 代理人: | 酆迅 |
地址: | 美国纽*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 训练数据 计算机系统 评估 验证 分类器 计算机程序产品 分类 应用 | ||
一种用于评估和修改用于分类器的训练数据的方法、计算机程序产品和计算机系统。计算机系统将每个类别的每条训练数据应用于多个分类器。计算机系统执行针对每个类别的训练数据的评估和验证,并且如果每条训练数据的分类精度大于预定阈值,则定义针对每个类别的每条训练数据的至少一个代表性类别。计算机系统基于针对每个类别的训练数据的评估和验证的结果来修改训练数据。计算机系统执行针对代表性类别的训练数据的评估和验证。计算机系统基于针对代表性类别的训练数据的评估和验证的结果来修改训练数据。
技术领域
本发明一般涉及验证分类器的训练数据,并且更具体地涉及评估和修改自动应答系统的分类器的训练数据。
背景技术
包括半结构化和非结构化数据的大量数据被称为大数据。近年来,将大数据运用于商业活动和医疗服务的技术引起了关注。特别而言,诸如认知计算和深度学习之类的技术已被应用于这些领域。认知计算提供识别自然语言、语音和图像数据的能力。通过学习大量数据,深度学习已经大大提高了机器学习的准确度。
自动应答系统是应用那些技术的系统。自动应答系统以诸如语音或键入的文本之类的自然语言来提供对问题的答案。在这样的系统中,通过使用分类器(例如,WatsonTM自然语言分类器)基于问题的意图对问题进行分类,然后提供答案。分类器是机器学习技术之一,并且也被称为监督学习。将由包括数据部分和类别在内的监督训练数据来训练分类器,然后分类器能够将非监督数据分类为最合适的类别。对于自然语言分类,问题的意图被视为类别,并且问题的陈述被视为数据部分。而且,为了提高分类器的准确度,更优选的是训练数据量更大。然而,在上述自动应答系统的情况下,数据部分是由自然语言编写的问题陈述,因此存在以下问题:(1)收集问题陈述并不容易;(2)作为训练数据收集的问题陈述的意图通常具有专门针对特定领域的内容,因此有必要由各个领域的专家等等来单独验证和确定意图。在某些情况下,可以创建问题陈述,诸如具有不明确内容的问题陈述,包括无法通过自然语言处理正确识别的表达;(3)经常发生错误分类。例如,新添加的问题陈述未能被正确地分类为添加的意图(或类别),并且在常规训练数据中被分类为另一意图的问题陈述被分类为添加的意图(类别)。
众所周知,优选地,应获得更大量的数据以提高机器学习的准确度。还已知通过去除导致噪声的数据(该数据是不能被正确分类的数据或降低学习准确度的数据)来提高分类准确度。已经研究了通过去除噪声数据来提高分类器的准确度的方法。然而,在自动应答系统的情况下,仅增加分类器的精度不一定有助于改善自动应答系统的性能。
发明内容
在一个方面,提供了一种用于评估和修改用于分类器的训练数据的方法。该方法包括由计算机系统将每个类别的每条训练数据应用于多个分类器。该方法还包括由该计算机系统执行针对每个类别的训练数据的评估和验证。该方法还包括:如果每条训练数据的分类精度大于预定阈值,则由计算机系统定义针对每个类别的每条训练数据的至少一个代表性类别。该方法还包括基于针对每个类别的训练数据的评估和验证的结果,由计算机系统修改训练数据以创建第一修改训练数据。该方法还包括由计算机系统执行针对代表性类别的第一修改训练数据的评估和验证。该方法还包括基于针对代表性类别的第一修改训练数据的评估和验证的结果,由计算机系统修改第一修改训练数据,以创建第二修改训练数据。
在另一方面,提供了一种用于评估和修改用于分类器的训练数据的计算机程序产品。该计算机程序产品包括一个或多个计算机可读有形存储设备和存储在一个或多个计算机可读有形存储设备中的至少一个计算机可读有形存储设备上的程序指令。程序指令可以被执行以:由计算机系统将每个类别的每条训练数据应用于多个分类器;由计算机系统执行针对每个类别的训练数据的评估和验证;如果每条训练数据的分类精度大于预定阈值,则由计算机系统定义针对每个类别的每条训练数据的至少一个代表性类别;基于针对每个类别的第一修改训练数据的评估和验证的结果,由计算机系统修改训练数据以创建第一修改训练数据;由计算机系统执行针对代表性类别的训练数据的评估和验证;并且,基于针对代表性类别的第一修改训练数据的评估和验证的结果,由计算机系统修改第一修改训练数据以创建第二修改训练数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国际商业机器公司,未经国际商业机器公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910640341.8/2.html,转载请声明来源钻瓜专利网。