[发明专利]一种基于数据挖掘的工程国家标准数据库自适应构建方法在审
申请号: | 202010439242.6 | 申请日: | 2020-05-22 |
公开(公告)号: | CN111931021A | 公开(公告)日: | 2020-11-13 |
发明(设计)人: | 朱全银;申奕;王梦迪;周泓;庄军;冯万利;马甲林;周蕾;马思伟;曹猛;李佳冬;朱良生;宋厚厚;胡凌宇;闫康 | 申请(专利权)人: | 淮阴工学院 |
主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F16/955;G06K9/62 |
代理公司: | 南京苏高专利商标事务所(普通合伙) 32204 | 代理人: | 梁耀文 |
地址: | 223005 江苏省*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 数据 挖掘 工程 国家标准 数据库 自适应 构建 方法 | ||
1.一种基于数据挖掘的工程国家标准数据库自适应构建方法,其特征在于,具体步骤如下:
(1)首先使用网络爬虫技术从预设的初始链接start_URL数据集开始广度遍历,获取与预设的start_URL相关联的建筑标准规范链接数据集standard_URL;
(2)设已爬取的数据集为visited_URL,通过BloomFilter自适应算法选取最优的哈希函数个数,将数据集standard_URL中的数据与已爬取过的数据集visited_URL进行比对,去除重复的链接,获得待爬取的数据集update_URL;
(3)对数据集update_URL中的网页进行解析,并分析得到纯文本数据集Text和图像形式的“文本+表格”混合数据集img;
(4)对混合数据集img进行识别分析,分别提取出其中的文本数据集text和表格数据集table;
(5)将text文本数据集按照顺序加入到Text数据集中,得到新的Text数据集,通过正则表达式提取其中的规范条例,存入item_text数据集中。
(6)采用数据封装的方式,将用户输入的搜索信息Input和已构建的数据库中的内容进行匹配,得到搜索结果Search_container返回给Web服务接口,提供给建筑审图专家以及数字化审图系统使用。
2.根据权利要求1所述的一种基于数据挖掘的工程国家标准数据库自适应构建方法,其特征在于,所述步骤(1)中获取与预设的start_URL相关联的建筑标准规范链接数据集standard_URL的具体步骤如下:
(1.1)输入初始链接数据集start_URL,定义headers表示定制的HTTP请求头;
(1.2)在解析链接时添加定制的HTTP头部,headers={'user-agent':'Mozilla/5.0(Windows NT 10.0;WOW64)AppleWebKit/537.36(KHTML,like Gecko)Chrome/63.0.3239.26Safari/537.36Core/1.63.6823.400QQBrowser/10.3.3117.400'};
(1.3)定义最长等待时间timeout,表示爬取网站时等待的最长时间,timeout∈N;
(1.4)定义解析网页编码encoding,用于定制解析网页所用的编码格式,encoding=“UTF-8”;
(1.5)定义网站响应状态码status,用于接收网站返回的响应状态码信息;
(1.6)定义计数器count1,令count1=0;
(1.7)若status≠200,表示服务器发生错误,则执行步骤(1.8),否则表示服务器响应正常,执行步骤(1.10);
(1.8)令count1=count1+1,执行步骤(1.9);
(1.9)若count1≥5,则抛出网站访问异常;否则执行步骤(1.2);
(1.10)定义解析后的标准列表页链接为standard_list,定义国家标准类别为category,category={category1,category2,…,categorycategoryNum},categoryn为category中第n个类别,categoryNum为数据集categoryNum中类别的总个数,n∈[1,categoryNum],standard_list,standard_list={standard_list1,standard_list2,…,standard_liststandard_listNum},standard_listn为standard_list中第n个,standard_listNum为数据集standard_list中链接的总个数,n∈[1,standard_listNum];
(1.11)定义循环变量i1用于遍历standard_list,定义len(standard_list)为standard_list集合的长度,i1∈[1,len(standard_list)],i1赋初值为1;
(1.12)如果i1≤len(standard_list),则进入步骤(1.13),否则进入步骤(1.16);
(1.13)由于国家标准在网页上是分不同类别分别存储的,通过广度遍历,standard_list记录下每一个分类下的所有国家标准规范链接;
(1.14)对每个standard_list中的链接进行完整性检查,由于部分网站源代码中的链接用的是相对路径,在浏览器中需要对链接进行拼接为绝对路径,才能正常访问该链接,对不符合HTTP规范的链接standard_listn,将standard_listn进行链接拼接后存入standard_URL数据集中standard_URL={[category1,standard_list1],[category2,standard_list2],…,[categorycategoryNum,standard_liststandard_listNum]};
(1.15)i1=i1+1,进入步骤(1.12);
(1.16)初始start_URL数据集解析完毕,得到国家标准信息standard_URL集合。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于淮阴工学院,未经淮阴工学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010439242.6/1.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置