[发明专利]一种新型语义关联挖掘方法有效

专利信息
申请号: 201210399288.5 申请日: 2012-10-19
公开(公告)号: CN102902809A 公开(公告)日: 2013-01-30
发明(设计)人: 张祥 申请(专利权)人: 东南大学
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 苏州广正知识产权代理有限公司 32234 代理人: 刘述生
地址: 215123 江苏省*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 新型 语义 关联 挖掘 方法
【说明书】:

技术领域

发明涉及信息检索领域,特别是涉及一种新型语义关联挖掘方法。

背景技术

随着语义网近十年来的蓬勃发展,在线语义数据越来越丰富,庞大的语义数据集构成了一个纷繁复杂的数据之网。语义网中的语义搜索主要关注语义对象和对象之间的语义关联,语义关联检索的目标是帮助用户找到并理解隐含在海量语义数据之中的对象之间直接或间接的联系。

在语义网研究领域,语义关联通常被定义为对象在资源描述框架图中直接或间接的关系。对语义关联的建模通常沿用图论中有向路径的方式,对于给定的两个对象,语义关联发现的过程是快速找到对象在资源描述框架图中的一条或多条最短或较短路径。

语义关联的挖掘技术经历十年的发展已经取得了一定的成果,但相关技术仍然存在着不足。传统基于语义路径的语义关联模型仍存在局限性:(1)传统语义路径只能刻画对象两两之间的语义关联,且每个语义关联互相独立,无法统一,无法刻画多个对象之间的复杂关联,但实际上多个对象大量的存在于真实语义数据中,应当统一为一个整体的语义关联;(2)语义路径模型并没有考虑语义关联的典型性,即具有语义关联的两个对象之间的语义路径是否也出现在其它语义关联中,在很多情况下,平凡的、不重要的语义路径仅仅表示了两个对象在资源描述框架图中的连通性,并不表示两个对象之间存在具有意义的语义关联。

现有的语义关联挖掘方法较难处理大规模语义数据。随着语义网的发展,出现了大量的大规模语义数据集,其规模超过了百万三元组,在这样的数据规模下,无论是路径发现技术还是传统的图挖掘技术均难以在有限的时间内挖掘出有意义的结果。尤其是传统图挖掘算法,由于其复杂度大多为指数级,且大多假定图的规模可以存放在内存中,因此至今为止未能直接应用于大规模图的挖掘中。在数据挖掘研究领域,解决问题的主要方法为对大规模图的分块。PartMiner算法是最为流行的用于图挖掘的图分块算法,但该算法理论上存在挖掘到错误结果的可能性,需要在全局挖掘后进一步检测挖掘结果的正确性,因此至今还没有完善的分块方法能够快速且准确的对大规模语义数据进行划分与合并。

发明内容

本发明主要解决的技术问题是提供一种新型语义关联挖掘方法,该方法有高效、挖掘结果准确等优点。

为解决上述技术问题,本发明采用的一个技术方案是:提供一种新型语义关联挖掘方法,包括步骤为:

(1)将输入的语义数据进行解析并聚类,形成语义数据簇,对所述语义数据簇进行数据清洗,并将所述语义数据簇的资源描述框架图转化为类型对象图;

(2)通过基本标记规则或优化标记规则对所述类型对象图进行分块或合并,得到多个分块,所述基本标记规则采用接近随机的标记方法,所述优化标记规则采用启发式规则;

(3)预测所述每个分块中潜在的链接模式和语义关联的数量级,预测结果反馈给二划分单元,对较大或结构复杂的分块进一步划分;

(4)挖掘出所述分块的局部链接模式和语义关联,再将所述局部链接模式和所述语义关联进行合并,将所述语义关联汇总和统计,输出给用户。

在本发明一个较佳实施例中,步骤(1)中所述资源描述框架图转化为类型对象图的过程为对资源描述框架图中的资源描述框架三元组进行过滤,再将所述资源描述框架三元组扩展为链接五元组,利用所述链接五元组将所述资源描述框架图转化为所述类型对象图。

在本发明一个较佳实施例中,步骤(2)中对所述类型对象图分块采用边标记方法,所述标记方法为所述类型对象图中每条边分配一个标签,所述标签包括主语对象和宾语对象的类型。

在本发明一个较佳实施例中,步骤(4)中所述挖掘方法为分阶段挖掘方法,通过频繁模式挖掘算法从所述类型对象图中挖掘出部分或所有所述链接模式,选取所述链接模式中的部分模式,根据所述部分模式在所述资源描述框架图中选择实例化子图作为所述语义关联。

在本发明一个较佳实施例中,步骤(4)中所述挖掘方法为合并式挖掘方法,通过频繁模式挖掘算法挖掘所述链接模式时,所述语义关联在计算所述链接模式支持度时被挖掘出来。

本发明的有益效果是:本发明的新型语义关联挖掘方法,该方法相对于现有方法拥有高效、挖掘结果准确等特点,提出了类型对象图模型用于刻画多个对象之间的复杂关联,并将链接模式用于衡量语义关联的典型性,进而使用图挖掘技术开展语义关联的挖掘,提高了语义关联挖掘在大规模语义数据上的可行性和效率。

附图说明

图1是本发明新型语义关联挖掘方法一较佳实施例的流程图;

具体实施方式

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东南大学,未经东南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201210399288.5/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top