[发明专利]一种语义结构解析方法、装置、设备及虚拟化系统、介质有效

申请号：	202111462969.7	申请日：	2021-12-03
公开（公告）号：	CN113868322B	公开（公告）日：	2022-03-29
发明（设计）人：	龚小龙;郑聪;麻志毅	申请（专利权）人：	杭州未名信科科技有限公司;浙江省北大信息技术高等研究院
主分类号：	G06F16/25	分类号：	G06F16/25;G06F16/28;G06N3/08
代理公司：	北京辰权知识产权代理有限公司 11619	代理人：	鞠永帅
地址：	311200 浙江省杭州市萧***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种语义结构解析方法装置设备虚拟系统介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提供了一种语义结构解析方法、装置、设备及虚拟化系统、介质，所述方法包括：获取元数据；判断所述元数据的语义结构是否完整，所述语义结构至少包括列主题和表主题；若所述语义结构不完整，则将所述元数据对应的物理数据输入训练完成的模式匹配预训练模型，得到预测列主题，和/或，将所述元数据对应的物理数据输入训练完成的深度语义表征预训练模型，得到预测表主题，将所述语义结构补充完整；将语义结构完整的所述元数据转换为标准语义结构数据。这样，通过预训练模型对数据库资源中缺乏的部分语义结构进行预测，从而得到完整的语义结构，解决软件资源缺乏语义结构的问题，进而完成数据库资源的整合。

技术领域

本发明涉及数据库技术领域，具体而言，涉及一种语义结构解析方法、装置、设备及虚拟化系统、介质。

背景技术

在这个“信息爆炸”的时代，随着云计算、物联网、移动计算、智慧城市、人工智能等领域日新月异的发展，迫使大数据技术必须面对新的现实：数据规模越来越大，数据复杂度越来越高，数据多样性越来越丰富，数据安全要求越来越严格。传统的数据集成技术正面临着严峻的挑战：应用各自为政，数仓等软件资源互不相通，多源异构的软件资源形式及数据存放的格式和数据安全的管理都是烟囱式模型，形成了数据孤岛，无法跨业务集成和使用。在这种情况下，软件资源中的信息往往通过ETL来实现，也造成了业务系统集成工作量大等多种困境。

其中，阻碍数据库资源整合的最主要困难是软件资源普遍缺乏语义结构的问题。但针对该问题，目前还没有研究方提供可实行的解决方案。

发明内容

本发明解决的问题是现有软件资源普遍缺乏语义结构阻碍数据库资源整合。

为解决上述问题，本发明首先提供一种语义结构解析方法，包括：

获取元数据；

判断所述元数据的语义结构是否完整，所述语义结构至少包括列主题和表主题；

若所述语义结构不完整，则将所述元数据对应的物理数据输入训练完成的模式匹配预训练模型，得到预测列主题，和/或，将所述元数据对应的物理数据输入训练完成的深度语义表征预训练模型，得到预测表主题，将所述语义结构补充完整；

将语义结构完整的所述元数据转换为标准语义结构数据。

这样，通过预训练模型对数据库资源中缺乏的部分语义结构进行预测，从而得到完整的语义结构，解决软件资源缺乏语义结构的问题，进而完成数据库资源的整合。

优选地，所述模式匹配预训练模型的训练过程为：

获取已标注的样本数据；

提取所述样本数据的数据特征、文本语义特征和统计特征；