[发明专利]一种语义结构解析方法、装置、设备及虚拟化系统、介质有效
申请号: | 202111462969.7 | 申请日: | 2021-12-03 |
公开(公告)号: | CN113868322B | 公开(公告)日: | 2022-03-29 |
发明(设计)人: | 龚小龙;郑聪;麻志毅 | 申请(专利权)人: | 杭州未名信科科技有限公司;浙江省北大信息技术高等研究院 |
主分类号: | G06F16/25 | 分类号: | G06F16/25;G06F16/28;G06N3/08 |
代理公司: | 北京辰权知识产权代理有限公司 11619 | 代理人: | 鞠永帅 |
地址: | 311200 浙江省杭州市萧*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 语义 结构 解析 方法 装置 设备 虚拟 系统 介质 | ||
本发明提供了一种语义结构解析方法、装置、设备及虚拟化系统、介质,所述方法包括:获取元数据;判断所述元数据的语义结构是否完整,所述语义结构至少包括列主题和表主题;若所述语义结构不完整,则将所述元数据对应的物理数据输入训练完成的模式匹配预训练模型,得到预测列主题,和/或,将所述元数据对应的物理数据输入训练完成的深度语义表征预训练模型,得到预测表主题,将所述语义结构补充完整;将语义结构完整的所述元数据转换为标准语义结构数据。这样,通过预训练模型对数据库资源中缺乏的部分语义结构进行预测,从而得到完整的语义结构,解决软件资源缺乏语义结构的问题,进而完成数据库资源的整合。
技术领域
本发明涉及数据库技术领域,具体而言,涉及一种语义结构解析方法、装置、设备及虚拟化系统、介质。
背景技术
在这个“信息爆炸”的时代,随着云计算、物联网、移动计算、智慧城市、人工智能等领域日新月异的发展,迫使大数据技术必须面对新的现实:数据规模越来越大,数据复杂度越来越高,数据多样性越来越丰富,数据安全要求越来越严格。传统的数据集成技术正面临着严峻的挑战:应用各自为政,数仓等软件资源互不相通,多源异构的软件资源形式及数据存放的格式和数据安全的管理都是烟囱式模型,形成了数据孤岛,无法跨业务集成和使用。在这种情况下,软件资源中的信息往往通过ETL来实现,也造成了业务系统集成工作量大等多种困境。
其中,阻碍数据库资源整合的最主要困难是软件资源普遍缺乏语义结构的问题。但针对该问题,目前还没有研究方提供可实行的解决方案。
发明内容
本发明解决的问题是现有软件资源普遍缺乏语义结构阻碍数据库资源整合。
为解决上述问题,本发明首先提供一种语义结构解析方法,包括:
获取元数据;
判断所述元数据的语义结构是否完整,所述语义结构至少包括列主题和表主题;
若所述语义结构不完整,则将所述元数据对应的物理数据输入训练完成的模式匹配预训练模型,得到预测列主题,和/或,将所述元数据对应的物理数据输入训练完成的深度语义表征预训练模型,得到预测表主题,将所述语义结构补充完整;
将语义结构完整的所述元数据转换为标准语义结构数据。
这样,通过预训练模型对数据库资源中缺乏的部分语义结构进行预测,从而得到完整的语义结构,解决软件资源缺乏语义结构的问题,进而完成数据库资源的整合。
优选地,所述模式匹配预训练模型的训练过程为:
获取已标注的样本数据;
提取所述样本数据的数据特征、文本语义特征和统计特征;
将所述样本数据的数据特征、文本语义特征和统计特征重组为所述样本数据的特征向量;
将所述样本数据的特征向量和标注作为输入参数,对预设的神经网络模型进行训练,得到模式匹配预训练模型。
优选地,所述深度语义表征预训练模型的训练过程为:
获取已标注的样本数据;
将所述样本数据按照预设规则进行分块,获取多个样本数据集,所述样本数据集中的每个样本数据的标注相同;
提取所述样本数据的数据特征、文本语义特征和统计特征;
将样本数据集中所有样本数据的数据特征、文本语义特征和统计特征重组为所述样本数据集的特征向量;
将所述样本数据集的特征向量和标注作为输入参数,对预设的神经网络模型进行训练,得到深度语义表征预训练模型。
优选地,所述方法还包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州未名信科科技有限公司;浙江省北大信息技术高等研究院,未经杭州未名信科科技有限公司;浙江省北大信息技术高等研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111462969.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:路径规划方法和电子设备
- 下一篇:一种防堵塞的厨余垃圾自动破碎收集装置