[发明专利]面向可视化需求的基于知识图谱的Web数据优化方法有效

申请号：	201911254814.7	申请日：	2019-12-10
公开（公告）号：	CN111177591B	公开（公告）日：	2023-09-29
发明（设计）人：	陆佳炜;王小定;高燕煦;朱昊天;徐俊;肖刚	申请（专利权）人：	深圳市数康云信息技术有限公司
主分类号：	G06F16/9538	分类号：	G06F16/9538;G06F16/958;G06F16/35;G06F16/36;G06F18/23213
代理公司：	合肥利交桥专利代理有限公司 34259	代理人：	吴骏飞
地址：	518000 广东省深圳市龙岗区龙城街***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	面向可视化需求基于知识图谱 web 数据优化方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种面向可视化需求的基于知识图谱的Web数据优化方法，其特征在于，所述方法包括以下步骤：

第一步、目标领域语料库的构建：把网络语料内容作为构建知识图谱的基础，使用网络语料词条信息作为原始语料内容，为构建知识图谱而对原始网络语料内容进行筛选，比较分析网络词条的网页内容，原始语料内容中除了标题和正文信息外，还包含了HTML标签，词条本身的编辑信息，网页链接信息与词条本身无关的冗余信息，对网络词条的内容进行过滤清洗，抽取标题与有效的正文内容，过滤内容包括：对词条的网页内容执行HTML标签/文本样式符号过滤、词条模板符号及非英文字符过滤、词条编辑信息过滤、图片信息过滤、链接信息过滤、页面专有标题属性名过滤以及数值过滤；

第二步、面向语料库的实体抽取：知识图谱是由实体与关系构成图结构的数据信息网，以“实体-关系-实体”的三元组来表示知识图谱的基础结构，三元组中包括了两个有现实语义关系的实体和两个实体间的关系，用G＝(head,relation,tail)的形式来表示，其中G表示三元组，head表示头实体，tail表示尾实体，relation表示头实体和尾实体间的关系；每个实体本身还包含了属性及属性值，将实体的属性也转化为与该实体相连的尾实体，并在两者间建立relation关系，实体抽取分为命名实体抽取、属性实体抽取及名词实体抽取三个阶段；

第三步：结合Word2vec，将语料库进行二次预分组，使用k-means聚类算法构建知识图谱:三元组G的结构为(head,relation,tail)，随着head和tail的不同，relation也有多种关系，relation是知识图谱中的关系集合，用以表示多种实体间的复杂联系，其目的在于判断两个属性间是否存在语义关联，即两个实体间是否存在关系，而不关注存在何种关系，通过计算语料库词汇的词向量，将语料库进行二次分组，使用k-means聚类算法来抽取实体关系；

第四步、构建可视化模型树VT：对各种可视化图形进行分类，归纳总结各类图形的属性和结构特征，通过创建一种可视化模型树VT，来形式化地表达各类图形信息；

第五步、基于网络语料知识图谱的数据可视化优化匹配方法：定义M-JSON为REST Web服务返回的JSON的原型结构；将Web数据原型结构M-JSON与可视化模型树VT中的每个StructModel依据数据结构进行匹配，返回的结果是符合条件的候选坐标轴/图例的属性组合构成的集合；在结构匹配的基础上，利用第三步中构建的知识图谱，查询匹配出来的候选坐标轴/图例的属性组合否存在实际语义关联，根据查询结果优化匹配，选取有效的维度组合，以提升自动化生成图形的精确率。

2.如权利要求1所述的面向可视化需求的基于知识图谱的Web数据优化方法，其特征在于，所述第二步中，实体抽取分为命名实体抽取、属性实体抽取及名词实体抽取三个阶段；

2.1、实体抽取：实体抽取又称为命名实体识别，是从文本数据集中自动识别出命名实体，这指的是人名、地名、机构名词以及其它所有名称为标识的实体，该流程通过使用一些主流的命名实体识别系统来完成，其步骤包括：一、通过工具对语料库内容进行命名实体识别；二、将识别出的命名实体标注它的类型属性；三、根据类型属性对命名实体进行过滤，删除不合适的命名实体，保留其它命名实体的标注，同时将词条名称默认定义为命名实体；

2.2、属性实体抽取：以词条网络语料的信息框为属性的来源，从信息框中提取属性，然后在语料库中截取每个词条的信息框信息，按照信息框结构，提取属性名称，作为所属词条的名称所对应的命名实体的尾实体，不保留属性值，若某词条不存在信息框，则不必为该词条对应的命名实体创建尾实体；

2.3、名词实体抽取，包括四个步骤：单词拆分Split、词性标注POS Tagging、停用词过滤Stop Word Filtering和词干提取Stemming，命名实体抽取步骤中已经标注了识别出的命名实体，因此接下来的操作仅对标注的实体外的语料内容进行抽取。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于深圳市数康云信息技术有限公司，未经深圳市数康云信息技术有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201911254814.7/1.html，转载请声明来源钻瓜专利网。

上一篇：一种复杂数据匹配方法及介质
下一篇：一种适用于砖砌体侵彻的空腔膨胀理论计算方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]面向可视化需求的基于知识图谱的Web数据优化方法有效

专利文献下载