[发明专利]一种包装产业大数据知识图谱的构建方法及设备在审

申请号：	201810211761.X	申请日：	2018-03-15
公开（公告）号：	CN108446368A	公开（公告）日：	2018-08-24
发明（设计）人：	李长云;吴岳忠;丁军;朱俊杰	申请（专利权）人：	湖南工业大学;上海海乂知信息科技有限公司
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	上海领洋专利代理事务所(普通合伙) 31292	代理人：	罗晓鹏
地址：	412007 ***	国省代码：	湖南;43
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明提供了一种包装产业大数据知识图谱的构建方法及设备，本发明可以在构建包装知识图谱的同时将非结构化数据进行结构化，为进一步语义分析计算打下基础。另外，利用知识图谱对包装行业的数据进行建模，可以自由扩展数据模式。
搜索关键词：	图谱构建包装产业大数据非结构化数据包装行业扩展数据语义分析结构化建模自由
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种包装产业大数据知识图谱的构建方法，其特征在于，包括：获取包装行业的结构化数据，包括：利用一些能够代表包装行业的种子词汇，在搜索引擎和在线百科的搜索接口中进行搜索，对于所述搜索引擎返回的网页文档，选取排列在前面的预设个数据结果作为目标网页，添加到目标网页列表；对于所述在线百科返回的页面，先进入到相应的文章页，然后在文章页面中寻找两类链接，包括外部链接和参考文献的外链，将找到的外部链接和参考文献的外链作为目标网页，添加到所述目标网页列表中；对所述目标网页列表中目标网页依据网站进行第一归类；按所述第一归类对目标网页对应的各个网站进行站内的网页内容采集，每个网站采集的最大深度设置为3层，即从网站首页开始，使用深度优先采集策略，总共采集每个网站的3层网页内容；对每个网站已经采集到的网页内容进行提取保存，对于包含行业关键词的频度小于预设阈值的网页内容，将其从保存的网页内容中删除；所述包装行业的结构化数据获取构建包装行业知识图谱的数据源，包括：使用聚类算法对网页内容依据结构进行第二归类，所述第二归类的目的在于把相同结构的网页聚集到一起，所述聚类所使用的特征包括：(a)网页URL的深度；(b)URL中去除域名后的部分使用″/″分割得到的词；(c)网页的长度；(d)网页的标签个数；(e)网页中主要标签包括

、、各自的个数及其所占的比例；对于所述第二归类后的网页内容数量大于预设阈值的类别，对所述类别中的网页内容进行过滤；通过预设的每个第二归类后的每个类对应的匹配模板，对所述过滤后的每个类中的网页内容进行解析，得到构建包装行业知识图谱的数据源，其中，所述每个类对应的匹配模板用于：对于所述过滤后的每个类中的网页内容中每个元素，通过利用网页内容在页面中XPath来进行定位；通过包括的标签把XPath对应的元素中的信息映射成知识图谱中的元素；获取构建包装行业知识图谱对应的人工专家定义的数据模式，所述数据模式采用自顶向下的知识图谱方式；理解包装行业的结构化数据中的基本结构，包括包装行业的结构化数据中每个表格的含义以及表之间的关联，同时理解所述数据模式对应的待构建的包装行业知识图谱的结构，通过D2R Server结构化数据映射工具，根据预设的关系数据库映射到语义数据的映射规范D2RML，把所述包装行业的结构化数据中的表格与待构建的包装行业知识图谱中的概念或实体关联起来，以将所述数据源填充至包装行业知识图谱中，构建包装行业知识图谱，其中，关系数据库映射到语义数据的映射规范D2RML的主要关键词及相应的描述功能如下：(a)dbtype：源数据库的类型，包括mysql、oracle、sqlserver，类型决定了连接时使用的驱动；(b)dburl：数据库连接字符串，指定包括数据库的地址、端口和使用的数据库的信息。(c)dbuser：数据库的用户名；(d)dbpwd：数据库的密码；(e)table：源数据表；(f)concept：导入目标概念；(g)name的colname属性：实体名称来源列；(h)synonym的colname属性：同义实体来源列；(i)parent的tablename属性：父概念的表名；(j)attribute的colname指定属性来源列，attrname则指定属性名；将开放链接数据和在线百科中的实体与已构建的包装行业知识图谱中的实体进行合并，包括：把开放链接数据和在线百科中的实体的名称及同义集合与已构建的包装行业知识图谱中的实体的名称及同义集合进行匹配，把匹配的结果作为实体合并的候选实体对；对于候选实体对，比较它们的父概念，如果父概念相同的候选实体对，将他们合并到所述已构建的包装行业知识图谱中；将不存在于已构建的包装行业知识图谱中的实体，但存在于开放链接数据和在线百科中的实体，添加至已构建的包装行业知识图谱中。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。