[发明专利]一种基于大数据的招投标审核方法有效
申请号: | 201710381502.7 | 申请日: | 2017-05-26 |
公开(公告)号: | CN107239891B | 公开(公告)日: | 2021-06-15 |
发明(设计)人: | 李晨;朱世伟;魏墨济;杨子江;赵燕清;李宪毅;杨爱芹;于俊凤;徐蓓蓓;李思思;刘翠芹;张明君;董婷 | 申请(专利权)人: | 山东省科学院情报研究所 |
主分类号: | G06Q10/06 | 分类号: | G06Q10/06;G06Q30/06;G06F16/955 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 250014 山*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 数据 投标 审核 方法 | ||
1.一种基于大数据的招投标审核方法,其特征在于,通过以下步骤来实现:
a).招投标信息的采集,以采购网及各类招投标网为信息源,获取招标、中标、废标流标及信息更正四类公告的列表入口URL地址;然后将此四类公告的入口URL地址交由分布式网络爬虫进行信息采集,并为网络爬虫配置时长不大于1天的采集周期;
b).信息的提取,首先将网络爬虫采集的非结构化网页数据中的广告、友情链接、同类推荐无关信息过滤掉,以抽取网页数据中的有效信息;然后从四类公告网页数据中提取包括项目名称、项目编号、招标时间、投标时间、投标地点、开标时间、开标地点、预算金额、采购单位、采购单位联系人、采购单位联系方式、采购单位地址、代理机构、代理机构联系人、代理机构联系方式、代理机构地址、采购内容、附件文档在内的信息,每个信息定义一个指标,所有的指标组成指标列表;
c).信息的清洗和存储,招投标的信息是不定时发布的,网络爬虫的采集频率会高于招投标信息更新的最大频率,在采集过程中会出现采集到重复信息的情形;网络爬虫首先对所要采集网页的URL地址进行判断,同一URL地址的信息只需采集存储一次;
四类公告信息分别使用数据库中的一个表存储,招标公告存储于招标表中,中标公告存储于中标表中,废标流标公告存储于废标表中,信息更正公告存储于更正表中;所提取的每一个指标使用结构化数据库中一列存储,将网页URL、招投标信息媒体来源、所属区域、网页发布时间、网页采集时间也分别作为指标,存储于数据库一列;
d).招标、开标时间审核,对于组织发布的某一投招标信息,判断其招标公告发布时间是否满足早于开标时间19日以上,如果满足,则表明招标和开标的时间符合规定,如果不满足,则表明招标和开标时间不合规,给出警示信息;
e).中标时间审核,在当前时间与开标时间差不少于10天的基础上,以项目编号或项目名称为项目标识,查询其是否存在于中标表、废标表或更正表中,如果存在,则表明符合规定;如果不存在,说明在规定时间内项目的招标结果并未公示,不符合规定,给出警示信息;
f).中标次数审核,判断同一中标单位在相同招标单位的中标数量是否大于用户预设阈值,以及相邻两个中标时间间隔小于用户预设阈值的次数过多,如果中标数量大于阈值且相邻中标时间间隔小于阈值的次数过多,则表明存在招标不合规的可能,发出警示信息;
g).中标单位资质审核,判断中标单位是否存在于采购资质机构中,如果存在,则表明中标单位符合采购资质;如果不能再,则表明中标单位不符合采购资质,发出警示信息;
h).采购内容与经营范围的审核,判断中标公告中招标单位的采购内容是否属于中标单位的经营范围,如果属于,则表明中标单位的经营范围与招标单位的采购内容相匹配;如果不属于,则表明中标单位的经营范围与招标单位的采购内容不匹配,发出警示信息;
步骤b)中所述的信息的提取通过以下步骤来实现:
b-1).获取表格,由于页面中存在多个表格的情形,通过能够标识表格属性的ID、CLASS在多个表格中抽取记录招投信息的表格;
b-2).表格去噪,将表格中控制页面显示格式的DIV、CSS以及与表格无关的噪声标签去除,只保留与表格显示和控制相关的table、tr、td、colspan标签;
b-3).表格标准化,将表格分割成多行多列的单元格,转化成简单表格,使得表格中的每个单元格只占一行一列且只有唯一确定值;
b-4).判断表格横竖,发布招投标信息时既可采用将指标放到第一行的横表,也可采用将指标放到第一列的纵表,在抽取表格信息前需判断其是横表还是纵表;取表格的第一行单元格值和第一列单元格值,分别与各个指标进行匹配,比较第一行和第一列单元格值的命中率,若第一行单元格值的命中率高则为横表,否则为纵表;
b-5).提取键值序列,若表格为横表,则将第一行单元格的值映射到相应的指标,相应列单元格的值即为指标的值,将表格转化成结构化的键值对,进而存储到结构化数据库;若表格为纵表,则将第一列单元格的值映射到指标,相应行单元格的值即为指标的值,提取键值对存储到结构化数据库;
步骤d)中所述的招标、开标时间审核通过以下步骤来实现:
d-1).获取招标发布时间,由于网络爬虫一天内的抓取频率会大于1次,因此招标公告的采集时间与公告的发布时间最多不会超过一天,故使用网页的采集时间作为招标公告的发布时间;
d-2).获取开标时间,招标公告的内容中会直接标明开标时间,通过步骤b)所述的信息提取方法获取开标时间;
d-3).时间差比较,通过比较招标发布时间与开标时间,判断开标时间是否早于招标公告发布时间,若是,则发出警示信息,若不是,则计算开标时间与招标公告发布时间的时间差是否大于或等于19天,如果判断结果为是,则审核通过,否则发出警示信息;
步骤e)中所述的中标时间审核通过以下步骤来实现:
e-1).获取开标时间,招标公告的内容中会直接标明开标时间,通过步骤b)所述的信息提取方法获取开标时间;
e-2).获取当前时间,若当前时间与开标时间的时间差不少于10天,转入步骤e-3);否则,不作任何操作;
e-3).获取项目标识,部分招投标网会为项目分配编号作为项目的唯一标识,而部分没有项目编号信息的招投标网会采用项目名成作为项目的唯一标识;通过步骤b)的信息提取方法在招标公告的内容中获取项目编号,若获取到项目编号,则将项目标识定为项目编号,否则通过步骤b)的信息提取方法在招标公告的内容中获取项目名称,将项目标识定为项目名称;
e-4).使用项目标识在中标表中进行检索,若找到说明招标项目已完成流程审核通过,否则执行步骤e-5);
e-5).使用项目标识在废标表中进行检索,若找到说明招标项目由于某种原因作废,此轮招标流程结束审核通过,否则转入步骤e-6);
e-6).使用项目标识在更正表中进行检索,若找到说明招标项目由于某种原因更正了部分信息,此轮招标流程结束审核通过,否则转入e-7);
e-7).若未在中标表、废标表和更正表中找到带有项目标识的项目,说明在规定时间内项目的招标结果并未公示,不符合规定,给出警示信息;
步骤f中所述的中标次数审核通过以下步骤来实现:
f-1).按照中标单位对中标表中的数据进行分组;
f-2).统计同一中标单位中标相同招标单位的次数,设中标次数为Ntender_bid;
f-3).若次数Ntender_bid大于用户预设阈值α,转入步骤f-4);
f-4).获取同一中标单位中标相同招标单位的中标时间列表TimeListbid;
f-5).按照中标时间对TimeListbid列表进行排序;
f-6).从TimeListbid列表的第一个元素起,依次取出TimeListbid列表中相邻两个中标时间,比较两者的时间间隔Intervaladj_bid,若Intervaladj_bid小于用户预设阈值β,则风险可能计数Nrisk加1;
f-7).迭代步骤f-6),直至取出的两个元素包含TimeListbid列表的最后一个元素;
f-8).若计数Nrisk大于用户预设阈值γ,给出警示信息;
步骤g)中所述的中标单位资质审核通过以下步骤来实现:
g-1).在中标表中找出来源是采购网的数据集列表Listgov;
g-2).从Listgov列表中取出一条数据Datagov,并从数据Datagov中取出元素中标单位Elementorg;
g-3).在采购资质机构中查找Elementorg,若未找到说明中标单位不具有资质,给出警示信息;
g-4).迭代步骤g-2)和步骤g-3),直至Listgov列表为空;
步骤h)中所述的采购内容与经营范围的审核,包括构建采购内容分类模型、构建经营范围分类模型和采购内容与经营范围审核,首先按照经营范围分类大全,将经营范围划分为57个类型,并建立分类目录;具体步骤如下:
构建采购内容分类模型的步骤为:
h-1-1).在分类目录中选择一个类型;
h-1-2).根据所选中的类型,人工在招标表中选择足够多的采购内容描述及附件文档作为样本;
h-1-3).迭代步骤h-1-2)和步骤h-1-3),直至为所有分类目录选定足够的样本;
h-1-4).采用贝叶斯、决策树和支持向量机中的一种分类算法,为样本数据构建采购内容分类模型;
构建经营范围分类模型的步骤为:
h-2-1).在分类目录中选择一个类型;
h-2-2).根据所选中的类型,人工选定相应类型足够多的企业;
h-2-3).针对步骤h-2-2)中选出的每个企业,通过网络爬虫模拟浏览器交互的方式,使用企业信用信息公示系统中所提供的检索功能,将企业名称作为检索关键词进行查询,并采集查询结果网页;
h-2-4).在采集到的网页中采用步骤b)中的效信息提取和步骤c)中的结构化信息提取,获取企业经营范围作为类型的样本;
h-2-5).迭代步骤h-2-1)至步骤h-2-4),直至为所有分类目录选定足够的样本;
h-2-6). 采用贝叶斯、决策树和支持向量机中的一种分类算法,为样本数据构建经营范围分类模型;
采购内容与经营范围审核的步骤为:
h-3-1).在中标表中获取待审核中标项目的项目标识;
h-3-2).依据项目标识查询招标表,获取采购内容和附件文档;
h-3-3).使用采购内容分类模型对待审核中标项目的采购内容和附件文档进行分类,获取待审核中标项目采购内容的类型TypeOrder;
h-3-4).在中标表中获取待审核中标项目的中标单位;
h-3-5).通过网络爬虫模拟浏览器交互的方式,使用企业信用信息公示系统中所提供的检索功能,将中标单位名称作为检索关键词进行查询,并采集查询结果网页;
h-3-6).在采集到的网页中步骤b)中的效信息提取和步骤c)中的结构化信息提取,获取企业经营范围;
h-3-7).使用经营范围分类模型对待审核中标单位的经营范围进行分类,获取待审核中标单位经营范围的类型Typebid;
h-3-8).匹配采购内容的类型TypeOrder和中标单位经营范围的类型Typebid,若两者相同审核通过;反之,若两者不同,给出警示信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东省科学院情报研究所,未经山东省科学院情报研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710381502.7/1.html,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06Q 专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法;其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的处理系统或方法
G06Q10-00 行政;管理
G06Q10-02 .预定,例如用于门票、服务或事件的
G06Q10-04 .预测或优化,例如线性规划、“旅行商问题”或“下料问题”
G06Q10-06 .资源、工作流、人员或项目管理,例如组织、规划、调度或分配时间、人员或机器资源;企业规划;组织模型
G06Q10-08 .物流,例如仓储、装货、配送或运输;存货或库存管理,例如订货、采购或平衡订单
G06Q10-10 .办公自动化,例如电子邮件或群件的计算机辅助管理
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置