[发明专利]面向可视化需求的基于知识图谱的Web数据优化方法有效

专利信息
申请号: 201911254814.7 申请日: 2019-12-10
公开(公告)号: CN111177591B 公开(公告)日: 2023-09-29
发明(设计)人: 陆佳炜;王小定;高燕煦;朱昊天;徐俊;肖刚 申请(专利权)人: 深圳市数康云信息技术有限公司
主分类号: G06F16/9538 分类号: G06F16/9538;G06F16/958;G06F16/35;G06F16/36;G06F18/23213
代理公司: 合肥利交桥专利代理有限公司 34259 代理人: 吴骏飞
地址: 518000 广东省深圳市龙岗区龙城街*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 面向 可视化 需求 基于 知识 图谱 web 数据 优化 方法
【权利要求书】:

1.一种面向可视化需求的基于知识图谱的Web数据优化方法,其特征在于,所述方法包括以下步骤:

第一步、目标领域语料库的构建:把网络语料内容作为构建知识图谱的基础,使用网络语料词条信息作为原始语料内容,为构建知识图谱而对原始网络语料内容进行筛选,比较分析网络词条的网页内容,原始语料内容中除了标题和正文信息外,还包含了HTML标签,词条本身的编辑信息,网页链接信息与词条本身无关的冗余信息,对网络词条的内容进行过滤清洗,抽取标题与有效的正文内容,过滤内容包括:对词条的网页内容执行HTML标签/文本样式符号过滤、词条模板符号及非英文字符过滤、词条编辑信息过滤、图片信息过滤、链接信息过滤、页面专有标题属性名过滤以及数值过滤;

第二步、面向语料库的实体抽取:知识图谱是由实体与关系构成图结构的数据信息网,以“实体-关系-实体”的三元组来表示知识图谱的基础结构,三元组中包括了两个有现实语义关系的实体和两个实体间的关系,用G=(head,relation,tail)的形式来表示,其中G表示三元组,head表示头实体,tail表示尾实体,relation表示头实体和尾实体间的关系;每个实体本身还包含了属性及属性值,将实体的属性也转化为与该实体相连的尾实体,并在两者间建立relation关系,实体抽取分为命名实体抽取、属性实体抽取及名词实体抽取三个阶段;

第三步:结合Word2vec,将语料库进行二次预分组,使用k-means聚类算法构建知识图谱:三元组G的结构为(head,relation,tail),随着head和tail的不同,relation也有多种关系,relation是知识图谱中的关系集合,用以表示多种实体间的复杂联系,其目的在于判断两个属性间是否存在语义关联,即两个实体间是否存在关系,而不关注存在何种关系,通过计算语料库词汇的词向量,将语料库进行二次分组,使用k-means聚类算法来抽取实体关系;

第四步、构建可视化模型树VT:对各种可视化图形进行分类,归纳总结各类图形的属性和结构特征,通过创建一种可视化模型树VT,来形式化地表达各类图形信息;

第五步、基于网络语料知识图谱的数据可视化优化匹配方法:定义M-JSON为REST Web服务返回的JSON的原型结构;将Web数据原型结构M-JSON与可视化模型树VT中的每个StructModel依据数据结构进行匹配,返回的结果是符合条件的候选坐标轴/图例的属性组合构成的集合;在结构匹配的基础上,利用第三步中构建的知识图谱,查询匹配出来的候选坐标轴/图例的属性组合否存在实际语义关联,根据查询结果优化匹配,选取有效的维度组合,以提升自动化生成图形的精确率。

2.如权利要求1所述的面向可视化需求的基于知识图谱的Web数据优化方法,其特征在于,所述第二步中,实体抽取分为命名实体抽取、属性实体抽取及名词实体抽取三个阶段;

2.1、实体抽取:实体抽取又称为命名实体识别,是从文本数据集中自动识别出命名实体,这指的是人名、地名、机构名词以及其它所有名称为标识的实体,该流程通过使用一些主流的命名实体识别系统来完成,其步骤包括:一、通过工具对语料库内容进行命名实体识别;二、将识别出的命名实体标注它的类型属性;三、根据类型属性对命名实体进行过滤,删除不合适的命名实体,保留其它命名实体的标注,同时将词条名称默认定义为命名实体;

2.2、属性实体抽取:以词条网络语料的信息框为属性的来源,从信息框中提取属性,然后在语料库中截取每个词条的信息框信息,按照信息框结构,提取属性名称,作为所属词条的名称所对应的命名实体的尾实体,不保留属性值,若某词条不存在信息框,则不必为该词条对应的命名实体创建尾实体;

2.3、名词实体抽取,包括四个步骤:单词拆分Split、词性标注POS Tagging、停用词过滤Stop Word Filtering和词干提取Stemming,命名实体抽取步骤中已经标注了识别出的命名实体,因此接下来的操作仅对标注的实体外的语料内容进行抽取。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市数康云信息技术有限公司,未经深圳市数康云信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201911254814.7/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top