[发明专利]一种包装产业大数据知识图谱的构建方法及设备在审
申请号: | 201810211761.X | 申请日: | 2018-03-15 |
公开(公告)号: | CN108446368A | 公开(公告)日: | 2018-08-24 |
发明(设计)人: | 李长云;吴岳忠;丁军;朱俊杰 | 申请(专利权)人: | 湖南工业大学;上海海乂知信息科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 上海领洋专利代理事务所(普通合伙) 31292 | 代理人: | 罗晓鹏 |
地址: | 412007 *** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供了一种包装产业大数据知识图谱的构建方法及设备,本发明可以在构建包装知识图谱的同时将非结构化数据进行结构化,为进一步语义分析计算打下基础。另外,利用知识图谱对包装行业的数据进行建模,可以自由扩展数据模式。 | ||
搜索关键词: | 图谱 构建 包装产业 大数据 非结构化数据 包装行业 扩展数据 语义分析 结构化 建模 自由 | ||
【主权项】:
1.一种包装产业大数据知识图谱的构建方法,其特征在于,包括:获取包装行业的结构化数据,包括:利用一些能够代表包装行业的种子词汇,在搜索引擎和在线百科的搜索接口中进行搜索,对于所述搜索引擎返回的网页文档,选取排列在前面的预设个数据结果作为目标网页,添加到目标网页列表;对于所述在线百科返回的页面,先进入到相应的文章页,然后在文章页面中寻找两类链接,包括外部链接和参考文献的外链,将找到的外部链接和参考文献的外链作为目标网页,添加到所述目标网页列表中;对所述目标网页列表中目标网页依据网站进行第一归类;按所述第一归类对目标网页对应的各个网站进行站内的网页内容采集,每个网站采集的最大深度设置为3层,即从网站首页开始,使用深度优先采集策略,总共采集每个网站的3层网页内容;对每个网站已经采集到的网页内容进行提取保存,对于包含行业关键词的频度小于预设阈值的网页内容,将其从保存的网页内容中删除;所述包装行业的结构化数据获取构建包装行业知识图谱的数据源,包括:使用聚类算法对网页内容依据结构进行第二归类,所述第二归类的目的在于把相同结构的网页聚集到一起,所述聚类所使用的特征包括:(a)网页URL的深度;(b)URL中去除域名后的部分使用″/″分割得到的词;(c)网页的长度;(d)网页的标签个数;(e)网页中主要标签包括
、