[发明专利]基于深度学习的样本数据集智能出题方法、装置及设备有效
申请号: | 202011499622.5 | 申请日: | 2020-12-17 |
公开(公告)号: | CN112559820B | 公开(公告)日: | 2022-08-30 |
发明(设计)人: | 孙显;张文凯;付琨;袁志强;陈佳良;赵良瑾;于泓峰 | 申请(专利权)人: | 中国科学院空天信息创新研究院 |
主分类号: | G06F16/903 | 分类号: | G06F16/903;G06F40/126;G06F40/284;G06K9/62 |
代理公司: | 中科专利商标代理有限责任公司 11021 | 代理人: | 王文思 |
地址: | 100190 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 深度 学习 样本 数据 智能 出题 方法 装置 设备 | ||
本公开提出一种基于深度学习的样本数据集智能出题方法、装置及设备,该方法包括:获取搜索文本,根据搜索文本生成句表征向量;提取数据库中数据的特征,生成数据的特征向量;其中,数据库中数据包括图像信息或文本信息或非结构化数据;根据句表征向量及数据的特征向量计算搜索文本和数据的距离相似度;根据距离相似度排序获取与搜索文本匹配的数据。该方法可以通过深度学习的方法智能化地获取所需要的数据,而且能够实现对多种数据类型的智能检索,解决了传统搜索模式所造成的数据贫乏的问题。
技术领域
本公开涉及数据库智能搜索技术,具体涉及一种基于深度学习的样本数据集智能出题方法、装置及设备。
背景技术
随着大数据相关技术的发展,数据库系统得到了广泛的应用。数据库是按照数据结构来组织、存储和管理数据的仓库,数据管理不再仅仅是存储和管理数据,而转变成用户所需要的各种数据管理的方式。数据库有很多种类型,从最简单的存储有各种数据的表格到能够进行海量数据存储的大型数据库系统都在各个方面得到了广泛的应用。在信息化社会,充分有效地管理和利用各类信息资源,是进行科学研究和决策管理的前提条件。
目前关于数据库的检索仍局限于传统模式,即按照特定方式和方法来对数据进行检索。常用的检索方法有两种,第一种是族性检索,即从学科分类角度检索所需信息,通常是采用分类检索或分类浏览。第二种是特性检索,即已知某一条件,例如书名、著者或关键词,查找与该条件匹配的文献或信息。然而,对于人工智能领域,尤其是在对深度学习模型评估时,这样的检索模式显然不能做到全面的评估模型。
发明内容
本公开一方面提供一种基于深度学习的样本数据集智能出题方法,包括:获取搜索文本,根据搜索文本生成句表征向量;提取数据库中数据的特征,生成数据的特征向量;其中,数据库中数据包括图像信息或文本信息或非结构化数据;根据句表征向量及数据的特征向量计算搜索文本和数据的距离相似度;根据距离相似度排序获取与搜索文本匹配的数据。
可选地,当数据为图像信息时,根据句表征向量及数据的特征向量计算搜索文本和数据的距离相似度,包括:将句表征向量与图像特征向量进行融合,输出与图像对应的第一文本特征向量;其中,图像特征向量为根据图像信息生成的特征向量;根据图像信息与第一文本特征向量计算搜索文本与图像信息的余弦相似度距离。
可选地,当数据为文本信息时,根据句表征向量及数据的特征向量计算搜索文本和数据的距离相似度,包括:根据句表征向量与第二文本特征向量计算搜索文本与文本信息的欧式距离相似度;其中,第二文本特征向量为根据文本信息生成的特征向量。
可选地,当数据为非结构化数据时,根据句表征向量及数据的特征向量计算搜索文本和数据之间的距离相似度,包括:将句表征向量与非结构化数据特征向量进行融合,输出与非结构化数据对应的第三文本特征向量;其中,非结构化数据特征向量为根据非结构化数据生成的特征向量;根据非结构化数据与第三文本特征向量计算搜索文本和非结构化数据的距离相似度。
可选地,根据搜索文本生成句表征向量,包括:对搜索文本进行预处理,以得到表征词;将表征词进行词义嵌入和位置嵌入,生成句表征向量。
可选地,将表征词进行词义嵌入和位置嵌入,生成句表征向量,包括:对表征词进行One-Hot编码,将其映射为稀疏向量;将稀疏向量进行词义嵌入,将其编码为稠密向量;将表征词进行位置编码,根据位置编码后的特征与稠密向量生成句表征向量。
本公开另一方面提供一种基于深度学习的样本数据集智能出题装置,包括:获取模块,用于获取搜索文本以及数据库中数据;其中,数据库中数据包括图像信息或文本信息或非结构化数据;编码模块,用于接收搜索文本以及数据,对搜索文本和数据进行特征提取,对特征进行编码并分别生成句表征向量和数据的特征向量;匹配模块,用于根据句表征向量和数据的特征向量计算搜索文本和数据的距离相似度,并根据距离相似度排序获取与搜索文本匹配的数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院空天信息创新研究院,未经中国科学院空天信息创新研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011499622.5/2.html,转载请声明来源钻瓜专利网。