[发明专利]一种基于数据挖掘的工程国家标准数据库自适应构建方法在审

申请号：	202010439242.6	申请日：	2020-05-22
公开（公告）号：	CN111931021A	公开（公告）日：	2020-11-13
发明（设计）人：	朱全银;申奕;王梦迪;周泓;庄军;冯万利;马甲林;周蕾;马思伟;曹猛;李佳冬;朱良生;宋厚厚;胡凌宇;闫康	申请（专利权）人：	淮阴工学院
主分类号：	G06F16/951	分类号：	G06F16/951;G06F16/955;G06K9/62
代理公司：	南京苏高专利商标事务所(普通合伙) 32204	代理人：	梁耀文
地址：	223005 江苏省***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于数据挖掘工程国家标准数据库自适应构建方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于数据挖掘的工程国家标准数据库自适应构建方法，其特征在于，具体步骤如下：

(1)首先使用网络爬虫技术从预设的初始链接start_URL数据集开始广度遍历，获取与预设的start_URL相关联的建筑标准规范链接数据集standard_URL；

(2)设已爬取的数据集为visited_URL，通过BloomFilter自适应算法选取最优的哈希函数个数，将数据集standard_URL中的数据与已爬取过的数据集visited_URL进行比对，去除重复的链接，获得待爬取的数据集update_URL；

(3)对数据集update_URL中的网页进行解析，并分析得到纯文本数据集Text和图像形式的“文本+表格”混合数据集img；

(4)对混合数据集img进行识别分析，分别提取出其中的文本数据集text和表格数据集table；

(5)将text文本数据集按照顺序加入到Text数据集中，得到新的Text数据集，通过正则表达式提取其中的规范条例，存入item_text数据集中。

(6)采用数据封装的方式，将用户输入的搜索信息Input和已构建的数据库中的内容进行匹配，得到搜索结果Search_container返回给Web服务接口，提供给建筑审图专家以及数字化审图系统使用。

2.根据权利要求1所述的一种基于数据挖掘的工程国家标准数据库自适应构建方法，其特征在于，所述步骤(1)中获取与预设的start_URL相关联的建筑标准规范链接数据集standard_URL的具体步骤如下：

(1.1)输入初始链接数据集start_URL，定义headers表示定制的HTTP请求头；

(1.2)在解析链接时添加定制的HTTP头部，headers＝{'user-agent':'Mozilla/5.0(Windows NT 10.0；WOW64)AppleWebKit/537.36(KHTML,like Gecko)Chrome/63.0.3239.26Safari/537.36Core/1.63.6823.400QQBrowser/10.3.3117.400'}；

(1.3)定义最长等待时间timeout，表示爬取网站时等待的最长时间，timeout∈N；

(1.4)定义解析网页编码encoding，用于定制解析网页所用的编码格式，encoding＝“UTF-8”；

(1.5)定义网站响应状态码status，用于接收网站返回的响应状态码信息；

(1.6)定义计数器count1，令count1＝0；

(1.7)若status≠200，表示服务器发生错误，则执行步骤(1.8)，否则表示服务器响应正常，执行步骤(1.10)；

(1.8)令count1＝count1+1，执行步骤(1.9)；

(1.9)若count1≥5，则抛出网站访问异常；否则执行步骤(1.2)；

(1.10)定义解析后的标准列表页链接为standard_list，定义国家标准类别为category，category＝{category₁,category₂,…,category_categoryNum}，category_n为category中第n个类别，categoryNum为数据集categoryNum中类别的总个数，n∈[1,categoryNum]，standard_list，standard_list＝{standard_list₁,standard_list₂,…,standard_list_{standard_listNum}}，standard_list_n为standard_list中第n个，standard_listNum为数据集standard_list中链接的总个数，n∈[1,standard_listNum]；

(1.11)定义循环变量i1用于遍历standard_list，定义len(standard_list)为standard_list集合的长度，i1∈[1,len(standard_list)]，i1赋初值为1；

(1.12)如果i1≤len(standard_list),则进入步骤(1.13),否则进入步骤(1.16)；

(1.13)由于国家标准在网页上是分不同类别分别存储的，通过广度遍历，standard_list记录下每一个分类下的所有国家标准规范链接；

(1.14)对每个standard_list中的链接进行完整性检查，由于部分网站源代码中的链接用的是相对路径，在浏览器中需要对链接进行拼接为绝对路径，才能正常访问该链接，对不符合HTTP规范的链接standard_list_n，将standard_list_n进行链接拼接后存入standard_URL数据集中standard_URL＝{[category₁,standard_list₁],[category₂,standard_list₂],…,[category_categoryNum,standard_list_{standard_listNum}]}；

(1.15)i1＝i1+1，进入步骤(1.12)；

(1.16)初始start_URL数据集解析完毕，得到国家标准信息standard_URL集合。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于淮阴工学院，未经淮阴工学院许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202010439242.6/1.html，转载请声明来源钻瓜专利网。

上一篇：与表达激活受体的免疫效应细胞具有免疫反应性的双特异性分子
下一篇：一种补丁自动生成方法、装置及系统

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于数据挖掘的工程国家标准数据库自适应构建方法在审

专利文献下载