[发明专利]面向可视化需求的基于知识图谱的Web数据优化方法有效
申请号: | 201911254814.7 | 申请日: | 2019-12-10 |
公开(公告)号: | CN111177591B | 公开(公告)日: | 2023-09-29 |
发明(设计)人: | 陆佳炜;王小定;高燕煦;朱昊天;徐俊;肖刚 | 申请(专利权)人: | 深圳市数康云信息技术有限公司 |
主分类号: | G06F16/9538 | 分类号: | G06F16/9538;G06F16/958;G06F16/35;G06F16/36;G06F18/23213 |
代理公司: | 合肥利交桥专利代理有限公司 34259 | 代理人: | 吴骏飞 |
地址: | 518000 广东省深圳市龙岗区龙城街*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 面向 可视化 需求 基于 知识 图谱 web 数据 优化 方法 | ||
1.一种面向可视化需求的基于知识图谱的Web数据优化方法,其特征在于,所述方法包括以下步骤:
第一步、目标领域语料库的构建:把网络语料内容作为构建知识图谱的基础,使用网络语料词条信息作为原始语料内容,为构建知识图谱而对原始网络语料内容进行筛选,比较分析网络词条的网页内容,原始语料内容中除了标题和正文信息外,还包含了HTML标签,词条本身的编辑信息,网页链接信息与词条本身无关的冗余信息,对网络词条的内容进行过滤清洗,抽取标题与有效的正文内容,过滤内容包括:对词条的网页内容执行HTML标签/文本样式符号过滤、词条模板符号及非英文字符过滤、词条编辑信息过滤、图片信息过滤、链接信息过滤、页面专有标题属性名过滤以及数值过滤;
第二步、面向语料库的实体抽取:知识图谱是由实体与关系构成图结构的数据信息网,以“实体-关系-实体”的三元组来表示知识图谱的基础结构,三元组中包括了两个有现实语义关系的实体和两个实体间的关系,用G=(head,relation,tail)的形式来表示,其中G表示三元组,head表示头实体,tail表示尾实体,relation表示头实体和尾实体间的关系;每个实体本身还包含了属性及属性值,将实体的属性也转化为与该实体相连的尾实体,并在两者间建立relation关系,实体抽取分为命名实体抽取、属性实体抽取及名词实体抽取三个阶段;
第三步:结合Word2vec,将语料库进行二次预分组,使用k-means聚类算法构建知识图谱:三元组G的结构为(head,relation,tail),随着head和tail的不同,relation也有多种关系,relation是知识图谱中的关系集合,用以表示多种实体间的复杂联系,其目的在于判断两个属性间是否存在语义关联,即两个实体间是否存在关系,而不关注存在何种关系,通过计算语料库词汇的词向量,将语料库进行二次分组,使用k-means聚类算法来抽取实体关系;
第四步、构建可视化模型树VT:对各种可视化图形进行分类,归纳总结各类图形的属性和结构特征,通过创建一种可视化模型树VT,来形式化地表达各类图形信息;
第五步、基于网络语料知识图谱的数据可视化优化匹配方法:定义M-JSON为REST Web服务返回的JSON的原型结构;将Web数据原型结构M-JSON与可视化模型树VT中的每个StructModel依据数据结构进行匹配,返回的结果是符合条件的候选坐标轴/图例的属性组合构成的集合;在结构匹配的基础上,利用第三步中构建的知识图谱,查询匹配出来的候选坐标轴/图例的属性组合否存在实际语义关联,根据查询结果优化匹配,选取有效的维度组合,以提升自动化生成图形的精确率。
2.如权利要求1所述的面向可视化需求的基于知识图谱的Web数据优化方法,其特征在于,所述第二步中,实体抽取分为命名实体抽取、属性实体抽取及名词实体抽取三个阶段;
2.1、实体抽取:实体抽取又称为命名实体识别,是从文本数据集中自动识别出命名实体,这指的是人名、地名、机构名词以及其它所有名称为标识的实体,该流程通过使用一些主流的命名实体识别系统来完成,其步骤包括:一、通过工具对语料库内容进行命名实体识别;二、将识别出的命名实体标注它的类型属性;三、根据类型属性对命名实体进行过滤,删除不合适的命名实体,保留其它命名实体的标注,同时将词条名称默认定义为命名实体;
2.2、属性实体抽取:以词条网络语料的信息框为属性的来源,从信息框中提取属性,然后在语料库中截取每个词条的信息框信息,按照信息框结构,提取属性名称,作为所属词条的名称所对应的命名实体的尾实体,不保留属性值,若某词条不存在信息框,则不必为该词条对应的命名实体创建尾实体;
2.3、名词实体抽取,包括四个步骤:单词拆分Split、词性标注POS Tagging、停用词过滤Stop Word Filtering和词干提取Stemming,命名实体抽取步骤中已经标注了识别出的命名实体,因此接下来的操作仅对标注的实体外的语料内容进行抽取。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市数康云信息技术有限公司,未经深圳市数康云信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911254814.7/1.html,转载请声明来源钻瓜专利网。