[发明专利]一种基于数据库的招标信息的标准化方法及系统在审

专利信息
申请号: 201810127993.7 申请日: 2018-02-08
公开(公告)号: CN108427721A 公开(公告)日: 2018-08-21
发明(设计)人: 陈晨;欧凌冰;龚澄源;郑红辉;刘蕊儿 申请(专利权)人: 湖南慧集网络科技有限责任公司
主分类号: G06F17/30 分类号: G06F17/30;G06Q30/08
代理公司: 广州嘉权专利商标事务所有限公司 44205 代理人: 伍传松
地址: 410000 湖南省长沙市岳麓区岳*** 国省代码: 湖南;43
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 招标信息 标准化 数据库 网页 标准化数据库 数据分析算法 表格格式 表格提取 非标准化 后续处理 键值序列 网页获取 招标 去噪
【权利要求书】:

1.一种基于数据库的招标信息标准化方法,其特征在于,包括步骤:

S100)网页获取:从网页数据库中获取招标网页;

S200)表格提取:从招标网页中提取表格,由于页面中可能存在多个表格的情形,通过能够标识表格属性的ID、CLASS在多个表格中提取记录招标信息的表格;

S300)表格去噪:将表格中的噪声标签去除,只保留与表格显示和控制相关的标签;

S400)表格标准化:将表格分割成多行多列的单元格,转化成简单表格,使得表格中的每个单元格只占一行一列且只有唯一确定值;

S500)表格格式判断:发布招标信息时既可采用将指标放到第一行的横表,也可采用将指标放到第一列的纵表,在抽取表格信息前需判断其是横表还是纵表;取表格的第一行单元格值和第一列单元格值,分别与各个指标进行匹配,比较第一行和第一列单元格值的命中率,若第一行单元格值的命中率高则为横表,否则为纵表;

S600)键值序列提取:若表格为横表,则将第一行单元格的值映射到相应的指标,相应列单元格的值即为指标的值,将表格转化成标准化的键值对,进而存储到标准化数据库中;若表格为纵表,则将第一列单元格的值映射到指标,相应行单元格的值即为指标的值,提取键值对存储到标准化数据库中。

2.根据权利要求1所述的一种基于数据库的招标信息标准化方法,其特征在于,所述网页数据库至少包括各级政府采购网页、各学校采购网页以及各招标网站招标网页。

3.根据权利要求1所述的一种基于数据库的招标信息标准化方法,其特征在于,所述噪音标签包括控制页面显示格式的DIV、CSS以及与表格无关的标签。

4.根据权利要求1所述的一种基于数据库的招标信息标准化方法,其特征在于,所述与表格显示和控制相关的标签包括但不限于table、tr、td、colspan。

5.根据权利要求1所述的一种基于数据库的招标信息标准化方法,其特征在于,所述指标包括项目名称、项目编号、招标时间、投标时间、投标地点、开标时间、开标地点、预算金额、采购单位、采购单位联系人、采购单位联系方式、采购单位地址、代理机构、代理机构联系人、代理机构联系方式、代理机构地址、采购内容、附件文档中的的一种或多种。

6.一种基于数据库的招标信息的标准化系统,其特征在于,包括网页数据库、标准化模块以及标准化数据库;其中网页数据库被配置用于存储招标网页;标准化数据库被配置用于从网页数据库中获取招标网页,并从网页中提取招标信息表格,然后将表格标准化,存入标准化数据库中;标准化数据库被配置用于存储标准化的招标信息。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖南慧集网络科技有限责任公司,未经湖南慧集网络科技有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201810127993.7/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top