[发明专利]用于扩充数据集的方法在审
申请号: | 202110734340.7 | 申请日: | 2018-09-28 |
公开(公告)号: | CN113535915A | 公开(公告)日: | 2021-10-22 |
发明(设计)人: | 黄苹苹;乔敏 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F40/30;G06F40/289 |
代理公司: | 北京市金杜律师事务所 11256 | 代理人: | 赵林琳 |
地址: | 100094 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 扩充 数据 方法 | ||
本公开提供了一种用于扩充问答数据的方法,涉及人工智能领域,尤其是知识图谱、深度学习领域。方法包括获取第一问题和与第一问题相对应的第一答案,基于语义知识库,确定在语义方面与第一问题相关联的第二问题;以及基于第一问题的答案以及第一问题和第二问题之间的语义关系,确定与第二问题相对应的第二答案。根据本公开的实施例,可以利用知识库来扩充数据集。
本申请是申请号为“201811142228.9”、题为“生成VAQ训练数据的方法、装置、设备和计算机可读介质”的分案申请。
技术领域
本公开的实施例涉及计算机领域,具体涉及人工智能领域,尤其是知识图谱、深度学习领域,并且更具体地涉及用于扩充数据集的方法、装置、电子设备和计算机可读存储介质。
背景技术
VQA系统涉及计算机视觉、自然语言处理和知识表示(KR)等多领域,目前已成为人工智能研究的热点。在VQA系统中,给定一副图像,需要回答围绕这幅图像的问题。也就是,需要将图像和问题作为输入,结合这两部分信息,产生一条人类语言作为输出。当前VQA系统基于有监督的机器学习方法来实现,其中通过大量的图像和围绕该图像的问题和答案的示例作为训练数据,使得学习到如何根据图像内容对问题进行回答。这种方法的效果直接依赖于训练数据的量。
目前,训练数据通常通过人工标注而获得。例如,对给定的输入图像,由标注人员对该图像提出问题并标注相应的答案。这种方式的成本高、速度慢并且训练数据量有限。期望提供改进的方案来得到训练数据,以便提升模型训练的效果,从而提高VQA系统的准确率。
发明内容
根据本公开的示例实施例,提供了用于扩充数据集的技术方案。
在本公开的第一方面中,提供了一种用于扩充数据集的方法,包括:获取第一问题和与所述第一问题相对应的第一答案;基于语义知识库,确定在语义方面与所述第一问题相关联的第二问题;以及基于所述第一问题的答案以及所述第一问题和所述第二问题之间的语义关系,确定与所述第二问题相对应的第二答案。
在本公开的第二方面中提供了一种用于扩展数据集的装置,包括:获取单元,被配置为获取第一问题和与所述第一问题相对应的第一答案;问题确定单元,被配置为基于语义知识库,确定在语义方面与所述第一问题相关联的第二问题;答案确定单元,被配置为基于所述第一问题的答案以及所述第一问题和所述第二问题之间的语义关系,确定与所述第二问题相对应的第二答案。
在本公开的第三方面中,提供了一种电子设备。该电子设备包括:一个或多个处理器;以及存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现根据本公开的第一方面的方法。
在本公开的第四方面中,提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现根据本公开的第一方面的方法。
应当理解,发明内容部分中所描述的内容并非旨在限定本公开的实施例的关键或重要特征,亦非用于限制本公开的范围。本公开的其它特征将通过以下的描述变得容易理解。
附图说明
结合附图并参考以下详细说明,本公开各实施例的上述和其他特征、优点及方面将变得更加明显。在附图中,相同或相似的附图标记表示相同或相似的元素,其中:
图1示出了本公开实施例可以在其中实施的示例环境的示意图;
图2示出了根据本公开实施例的用于生成VQA系统中的训练数据的方法的流程图;
图3示出了根据本公开实施例的用于确定第二问题的方法的流程图;
图4示出了根据本公开实施例的用于生成VQA系统中的训练数据的装置的示意框图;以及
图5示出了可以实施本公开实施例的计算设备的框图。
具体实施方式
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110734340.7/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置