[发明专利]使用概念描述自动标注数据在审
申请号: | 202110452796.4 | 申请日: | 2021-04-26 |
公开(公告)号: | CN113641715A | 公开(公告)日: | 2021-11-12 |
发明(设计)人: | 丁海波;冯哲 | 申请(专利权)人: | 罗伯特·博世有限公司 |
主分类号: | G06F16/2457 | 分类号: | G06F16/2457;G06N20/00 |
代理公司: | 中国专利代理(香港)有限公司 72001 | 代理人: | 毕铮;周学斌 |
地址: | 德国斯*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 使用 概念 描述 自动 标注 数据 | ||
用于使用概念描述自动标注数据的系统。在一个示例中,所述系统包括电子处理器,电子处理器被配置为从一个或多个自然语言文档生成未标注的训练数据示例,并且对于多个类别中的每一个类别,确定与所述类别的概念描述相关联的一个或多个概念,并且为所述一个或多个概念中的每一个生成弱注释器。电子处理器还被配置为将每个弱注释器应用于每个训练数据示例,并且当训练数据示例满足弱注释器时,输出与弱注释器相关联的类别。对于每个训练数据示例,电子处理器确定所述多个类别的概率分布。对于每个训练数据示例,电子处理器用在为训练数据示例确定的概率分布中具有最高值的类别来标注训练数据示例。
技术领域
分类是自然语言处理的重要方面,并且可以由机器学习系统自动执行。例如,机器学习系统可以从自然语言文档(例如,新闻文章、期刊等)接收段落,并将该段落分类为属于一个类别(例如,体育、娱乐、人类兴趣等)。自然语言段落可以包括语句的一部分或单个语句。为了对自然语言段落进行分类,使用由大量训练示例组成的训练数据来训练机器学习系统。用于训练机器学习系统的训练示例是已经被标注或分类为属于一个类别的自然语言段落。
背景技术
用于训练机器学习系统以对自然语言段落进行分类的大多数现有方法依赖于人工标注的训练示例来训练机器学习系统。生成大量手动标注的训练示例既耗时又昂贵,因为它需要人类查阅训练数据中包括的每一段落,并基于他们对该段落的查阅,确定最好地描述该段落的类别,并利用其来标注该段落。为机器学习系统可能被配置为执行的每个不同任务收集足够的手动标注的训练示例通常是不切实际的。例如,第一组织可能期望机器学习系统被配置为按照体育文章所描述的体育运动的类型(例如,足球、田径、网球、篮球等)对来自体育文章的段落进行分类,而第二组织可能期望机器学习系统被配置为按照小说所属的流派类型(例如,科幻、奇幻等)对来自小说的段落进行分类。第一组织和第二组织期望机器学习系统执行的任务中没有重叠,并且为了训练机器学习系统执行每个任务,将需要生成两个不同的训练集。基于上面的示例,容易看出训练机器学习系统所需的训练示例的数量可以如何随着机器学习系统需要执行的任务数量的增长而指数增长。
发明内容
除其他事物之外,本文描述的实施例还提供了一种系统和方法,其用于基于可能与训练数据示例相关联的每个可能的类别或标注的概念描述来自动标注要用于训练机器学习系统的训练数据示例。因此,本文描述的系统和方法允许节省生成训练集通常需要的大量工时。
一个实施例提供了一种用于使用概念描述自动标注数据的示例系统。所述系统包括电子处理器,电子处理器被配置为从一个或多个自然语言文档生成未标注的训练数据示例,并且对于多个类别中的每一个类别,确定与所述类别的概念描述相关联的一个或多个概念,并且为所述一个或多个概念中的每一个生成弱注释器。电子处理器还被配置为将每个弱注释器应用于每个训练数据示例,并且当训练数据示例满足弱注释器时,输出与弱注释器相关联的类别。对于每个训练数据示例,电子处理器确定所述多个类别的概率分布。对于所述多个类别中的每一个类别,概率分布表示所述类别是针对训练数据示例的正确标注的可能性。对于每个训练数据示例,电子处理器用在为训练数据示例确定的概率分布中具有最高值的类别来标注训练数据示例。
另一个实施例提供了一种用于使用概念描述自动标注数据的示例方法。所述方法包括用电子处理器从一个或多个自然语言文档生成未标注的训练数据示例,并且对于多个类别中的每一个类别,确定与所述类别的概念描述相关联的一个或多个概念,并且为所述一个或多个概念中的每一个生成弱注释器。所述方法还包括将每个弱注释器应用于每个训练数据示例,并且当训练数据示例满足弱注释器时,输出与弱注释器相关联的类别。所述方法进一步包括,对于每个训练数据示例,确定所述多个类别的概率分布。对于所述多个类别中的每一个类别,概率分布表示所述类别是针对训练数据示例的正确标注的可能性。所述方法包括,对于每个训练数据示例,用在为训练数据示例确定的概率分布中具有最高值的类别来标注训练数据示例。
通过考虑详细描述和附图,其他方面、特征和实施例将变得清楚。
附图说明
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于罗伯特·博世有限公司,未经罗伯特·博世有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110452796.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:通信控制装置和发送/接收装置及总线系统中的通信方法
- 下一篇:树脂组合物