[发明专利]一种基于数据挖掘的工程国家标准数据库自适应构建方法在审

专利信息
申请号: 202010439242.6 申请日: 2020-05-22
公开(公告)号: CN111931021A 公开(公告)日: 2020-11-13
发明(设计)人: 朱全银;申奕;王梦迪;周泓;庄军;冯万利;马甲林;周蕾;马思伟;曹猛;李佳冬;朱良生;宋厚厚;胡凌宇;闫康 申请(专利权)人: 淮阴工学院
主分类号: G06F16/951 分类号: G06F16/951;G06F16/955;G06K9/62
代理公司: 南京苏高专利商标事务所(普通合伙) 32204 代理人: 梁耀文
地址: 223005 江苏省*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 数据 挖掘 工程 国家标准 数据库 自适应 构建 方法
【权利要求书】:

1.一种基于数据挖掘的工程国家标准数据库自适应构建方法,其特征在于,具体步骤如下:

(1)首先使用网络爬虫技术从预设的初始链接start_URL数据集开始广度遍历,获取与预设的start_URL相关联的建筑标准规范链接数据集standard_URL;

(2)设已爬取的数据集为visited_URL,通过BloomFilter自适应算法选取最优的哈希函数个数,将数据集standard_URL中的数据与已爬取过的数据集visited_URL进行比对,去除重复的链接,获得待爬取的数据集update_URL;

(3)对数据集update_URL中的网页进行解析,并分析得到纯文本数据集Text和图像形式的“文本+表格”混合数据集img;

(4)对混合数据集img进行识别分析,分别提取出其中的文本数据集text和表格数据集table;

(5)将text文本数据集按照顺序加入到Text数据集中,得到新的Text数据集,通过正则表达式提取其中的规范条例,存入item_text数据集中。

(6)采用数据封装的方式,将用户输入的搜索信息Input和已构建的数据库中的内容进行匹配,得到搜索结果Search_container返回给Web服务接口,提供给建筑审图专家以及数字化审图系统使用。

2.根据权利要求1所述的一种基于数据挖掘的工程国家标准数据库自适应构建方法,其特征在于,所述步骤(1)中获取与预设的start_URL相关联的建筑标准规范链接数据集standard_URL的具体步骤如下:

(1.1)输入初始链接数据集start_URL,定义headers表示定制的HTTP请求头;

(1.2)在解析链接时添加定制的HTTP头部,headers={'user-agent':'Mozilla/5.0(Windows NT 10.0;WOW64)AppleWebKit/537.36(KHTML,like Gecko)Chrome/63.0.3239.26Safari/537.36Core/1.63.6823.400QQBrowser/10.3.3117.400'};

(1.3)定义最长等待时间timeout,表示爬取网站时等待的最长时间,timeout∈N;

(1.4)定义解析网页编码encoding,用于定制解析网页所用的编码格式,encoding=“UTF-8”;

(1.5)定义网站响应状态码status,用于接收网站返回的响应状态码信息;

(1.6)定义计数器count1,令count1=0;

(1.7)若status≠200,表示服务器发生错误,则执行步骤(1.8),否则表示服务器响应正常,执行步骤(1.10);

(1.8)令count1=count1+1,执行步骤(1.9);

(1.9)若count1≥5,则抛出网站访问异常;否则执行步骤(1.2);

(1.10)定义解析后的标准列表页链接为standard_list,定义国家标准类别为category,category={category1,category2,…,categorycategoryNum},categoryn为category中第n个类别,categoryNum为数据集categoryNum中类别的总个数,n∈[1,categoryNum],standard_list,standard_list={standard_list1,standard_list2,…,standard_liststandard_listNum},standard_listn为standard_list中第n个,standard_listNum为数据集standard_list中链接的总个数,n∈[1,standard_listNum];

(1.11)定义循环变量i1用于遍历standard_list,定义len(standard_list)为standard_list集合的长度,i1∈[1,len(standard_list)],i1赋初值为1;

(1.12)如果i1≤len(standard_list),则进入步骤(1.13),否则进入步骤(1.16);

(1.13)由于国家标准在网页上是分不同类别分别存储的,通过广度遍历,standard_list记录下每一个分类下的所有国家标准规范链接;

(1.14)对每个standard_list中的链接进行完整性检查,由于部分网站源代码中的链接用的是相对路径,在浏览器中需要对链接进行拼接为绝对路径,才能正常访问该链接,对不符合HTTP规范的链接standard_listn,将standard_listn进行链接拼接后存入standard_URL数据集中standard_URL={[category1,standard_list1],[category2,standard_list2],…,[categorycategoryNum,standard_liststandard_listNum]};

(1.15)i1=i1+1,进入步骤(1.12);

(1.16)初始start_URL数据集解析完毕,得到国家标准信息standard_URL集合。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于淮阴工学院,未经淮阴工学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010439242.6/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top