[发明专利]一种基于UCL语义标引的知识图谱构建方法及装置在审

专利信息
申请号: 202010194484.3 申请日: 2020-03-19
公开(公告)号: CN111428047A 公开(公告)日: 2020-07-17
发明(设计)人: 杨鹏;李超;纪雯;马卫东 申请(专利权)人: 东南大学
主分类号: G06F16/36 分类号: G06F16/36;G06F16/951;G06F40/30
代理公司: 南京苏高专利商标事务所(普通合伙) 32204 代理人: 孟红梅
地址: 211102 江*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 ucl 语义 标引 知识 图谱 构建 方法 装置
【说明书】:

发明公开了一种基于UCL语义标引的知识图谱构建方法及装置。本发明首先从开放链接数据库中提取实体和关系,构建基础实体库;然后利用爬虫爬取各大门户网站中的新闻信息,对这些信息进行清洗解析形成UCL实体,完成实体消歧,并将UCL实体与基础实体库进行语义融合构建知识图谱;最后利用改进的关系推理算法完成对知识图谱的自动化补全,提高知识图谱的自动化水平。本发明能够利用UCL国家标准对互联网信息进行规范化、细粒度语义标引,使知识图谱所表示的语义信息更加丰富,为基于语义深度处理的内容大数据应用提供基于UCL语义标引的知识图谱支持。

技术领域

本发明涉及一种基于UCL语义标引的知识图谱构建方法及装置,属于互联网技术领域。

背景技术

随着互联网的迅速普及和数字信息的爆炸式增长,一方面带来了宝贵的信息财富,而另一方面如何从这些庞大的数据中检索有效信息对于搜索引擎也是一个较大挑战。传统的搜索引擎主要通过索引网页中的内容,匹配用户搜索请求中的关键词反馈给用户相关的网页链接,并利用网页排序算法对结果进行排序。这种模式给互联网信息检索带来了极大便利,但是返回结果过于单一,用户必须点进网页链接做二次检索才能获取所需信息。互联网用户希望当搜索时能够获取准确的、直接的和丰富的信息,搜索引擎需要提供智能语义搜索服务。

知识图谱可以将互联网的信息表达成更接近人类认知世界的形式,提供了一种更好的组织、管理和利用海量信息的方式,目前已经广泛应用于智能语义搜索中。目前国内外关于知识图谱的相关研究已经取得了丰富的成果,对本发明的研究工作具有借鉴意义,但在知识图谱构建上仍有较大提升空间。首先,目前知识图谱的知识表示方式主要是以较为简单的三元组形式将结构化数据组织,这样便于机器处理,但是丢失了实体的“上下文信息”,降低知识图谱语义表达的准确性。另外,目前关系推理算法主要基于Transe算法进行改进,但是这类算法忽略了实体与关系在语义上的多样性,缺乏对“一对多”和“多对一”类型关系的有效处理,从而大大降低了关系推理的准确性。

发明内容

发明目的:针对现有技术中存在的问题与不足,本发明提出了一种基于UCL语义标引的知识图谱构建方法及装置,能够对互联网信息进行规范化、细粒度标引,使知识图谱所表示的语义信息更丰富,同时能够完善传统关系推理算法在处理“一对多”和“多对一”类型关系时,如果对于关系两侧实体分别实施替换干扰得到的推理性能表现不均衡的问题。

技术方案:为实现上述发明目的,本发明所述的一种基于UCL语义标引的知识图谱构建方法,利用爬虫爬取各大门户网站中的新闻信息,对这些信息进行清洗解析形成UCL实体,并从百度百科、维基百科和wikidata等开放链接数据中提取实体和关系构建基础实体库,将UCL实体与该基础实体库进行语义融合最终构建知识图谱,最后利用改进的关系推理算法完成对知识图谱的自动化补全,提高知识图谱的自动化水平。具体步骤如下:

(1)构建基础实体库:从开放链接数据库中提取实体、实体基础属性和实体间关联关系构建基础实体库。

(2)构建初始UCL知识图谱:对获取的新闻信息进行清洗、语义解析标引成UCL实体。并根据新闻的5W特性,将UCL实体与基础实体库中普通实体间的关系分类,然后分别计算各普通实体在UCL实体中的语义重要程度,从而得到UCL实体与普通实体间的关联度,将UCL实体融入基础实体库,完成初始UCL知识图谱的构建。

(3)改进关系推理算法完成对UCL知识图谱的自动化补全:根据普通实体与UCL实体间的关联关系,将UCL实体作为普通实体间关系的“上下文”,利用关系的语义环境区分实体间的关系,据此在Transe算法模型中引入属于特定关系的上下文环境变量训练得到词向量,利用训练好的词向量模型对知识图谱补全,提高知识图谱的自动化程度。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东南大学,未经东南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010194484.3/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top