[发明专利]知识图谱构建方法及装置在审

专利信息
申请号: 201710169810.3 申请日: 2017-03-21
公开(公告)号: CN107016068A 公开(公告)日: 2017-08-04
发明(设计)人: 易翔;宁宇;庞小斌 申请(专利权)人: 深圳前海乘方互联网金融服务有限公司
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 广州华进联合专利商标代理有限公司44224 代理人: 潘霞
地址: 518000 广东省深圳市前海深港合作区前*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 知识 图谱 构建 方法 装置
【说明书】:

技术领域

发明涉及知识图谱技术领域,特别是涉及一种知识图谱构建方法及装置。

背景技术

随着信息技术的发展,中国约有上百家科技媒体,虽各科技媒体专注的领域和业务模式各不相同,但都站在科技前沿,为行业中的企业和各级投资者以及新兴科技的使用者随着提供最新资讯和新概念、新技术、新产业应用的权威诠释。在众多新兴科技行业的媒体数据中,存在着大量的实体和关系,要更有效地挖掘科技创新项目潜在价值、预警潜在投资风险,帮助一级市场金融投资行业的各项业务提升效率、发挥价值,很有必要将这些实体和关系建立连接,从“逻辑关系”的维度、深度整合行业的现有数据,突破传统的计算模式,用高度抽象的数据表达方式最大限度地还原真实世界,在大量的关联关系中挖掘数据的价值。知识图谱为解决上述问题提供了一个有效的技术途径,相比于传统的“关系型”数据库,建立知识图谱的图数据库更擅长建立复杂的关系网络,在关联查询的效率上比传统的方式有显著提高,基于图的存储在设计上也会非常灵活。

在知识图谱系统实现自动化自我学习与优化的过程中,存在着一个关键的问题,即在先验阶段通过人工干预的方式生成初级知识图谱的各节点之后,面对某些节点存在众多关联的子节点的情况(如图1所示),如何通过价值分类区分低价值子节点、高价值子节点,以便于后续后台服务器针对不同价值权重的子节点形成优化的信息追踪方案,将有限的算力及存储资源集中在高价值节点,从而实现基于知识图谱的智能系统作用最大化,是人们比较关系的问题。

传统的知识图谱绘制方法,在确定知识图谱各节点要素方面,通常采用传统的知识百科固有模板,通过条件随机场模型的预测算法(CRF)对标准语料库进行学习及人工干预补充得到节点属性,另外,在确定节点权重价值时,一般通过某节点所有临近关联节点总数的导数来确定。然而,上述方法由于在确定知识图谱各节点要素阶段人工干预的不确定性(即受个体差异的影响,不同专业人员对节点价值的判断难以相同),往往会对节点所有临近关联节点的总数产生较大影响,因此容易造成节点权重价值产生较大偏移的情况。

发明内容

基于此,有必要针对如何克服传统知识图谱绘制方法因人工干预的不确定性容易造成节点权重价值产生较大偏移的情况的问题,提供一种知识图谱构建方法及装置。

一种知识图谱构建方法,包括:

获取初始的知识图谱中位于同一层级的所有节点;

在设定媒体群中,分别获取设定时间段内各所述节点的舆情原始数据;其中,所述设定媒体群包括多个媒体;所述舆情原始数据能够反映所述节点的舆情;

根据所有所述节点的所述舆情原始数据评估各所述节点的价值。

在其中一个实施例中,所述舆情原始数据包括第一指标和第二指标;所述第一指标能够反映所述设定媒体群在所述设定时间段内发布的报道中出现过所述节点的情况;所述第二指标能够反映在所述设定时间段内出现过所述节点的所有所述媒体在网络上的被搜索情况。

在其中一个实施例中,所述第一指标包括从所述节点在所述设定时间段内首次出现在所述设定媒体群的时间到所述设定时间段结束时间之间的时长、从所述节点在所述设定时间段内最晚出现在所述设定媒体群的时间到所述设定时间段结束时间之间的时长、在所述设定时间段内包含所述节点的所有报道出现的总次数、及在所述设定时间段内包含所述节点的所有报道的总字数这些指标数据中的一种或两种以上。

在其中一个实施例中,定义各所述媒体的搜索指数加权数,为各自在设定搜索引擎的搜索指数除以所述设定媒体群中所有所述媒体的所述搜索指数之和得到的值;

并且,所述第二指标为将在所述设定时间段内出现过所述节点的所有所述媒体的所述搜索指数加权数累加后,除以所述设定时间段包含的天数得到的值。

在其中一个实施例中,根据所有所述节点的所述舆情原始数据评估各所述节点的价值的步骤包括:

根据所有所述舆情原始数据对所有所述节点进行聚类分析,得到设定数量个聚类;并且,各所述聚类中的所有所述节点的舆情原始数据的值最接近;

对各所述聚类的中心节点的所述舆情原始数据进行分析,得到各所述聚类的中心节点的价值评估结果;

将各所述聚类的中心节点的所述价值评估结果作为各自所在的所述聚类内包括的所有所述节点的价值评估结果。

在其中一个实施例中,所述舆情原始数据包括一个或两个以上指标数据;并且,根据所有所述舆情原始数据对所有所述节点进行聚类分析,得到设定数量个聚类的步骤包括:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳前海乘方互联网金融服务有限公司,未经深圳前海乘方互联网金融服务有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201710169810.3/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top