[发明专利]基于爬虫技术的信息系统监理价格库生成方法在审
申请号: | 201910115446.1 | 申请日: | 2019-02-14 |
公开(公告)号: | CN109977282A | 公开(公告)日: | 2019-07-05 |
发明(设计)人: | 邱全兵;陈进才;胡宇辉;刘沛鹏;张冉 | 申请(专利权)人: | 广东省计算技术应用研究所 |
主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F16/9535;G06F16/955;G06Q30/02 |
代理公司: | 北京联瑞联丰知识产权代理事务所(普通合伙) 11411 | 代理人: | 张清彦 |
地址: | 510033 广东省广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 项目信息 中标结果 报价明细表 价格记录 爬虫技术 信息系统 库生成 资料库 过滤 抓取 文档管理系统 报价检索 报价信息 规则创建 价格信息 检索结果 检索效率 类似项目 目录分类 实际数据 索引操作 网页资料 网站信息 项目文件 招标文件 自动删除 时效性 文档 下载 索引 检索 过时 关联 创建 发布 保证 | ||
本发明公开了一种基于爬虫技术的信息系统监理价格库生成方法,包括:收集发布中标结果公告的网站信息;抓取中标结果公告;将网页资料按规则创建目录分类存放在下载资料库中;提取中标结果公告和报价明细表;提取项目信息并将其存入价格库;将招标文件和报价明细表自动上传到文档管理系统;提取资源报价信息并存入到价格库中形成价格记录,每条价格记录关联对应的项目信息和项目文件的URL;进行索引操作,创建索引,获取关键词,对检索的结果进行过滤;进行资源报价检索;对价格检索结果进行过滤;自动删除价格库中过时的项目信息和价格信息,以及项目资料库中的对应文档。本发明能找到类似项目的实际数据、能保证数据的时效性、检索效率较高。
技术领域
本发明涉及信息系统工程监理服务领域,特别涉及一种基于爬虫技术的信息系统监理价格库生成方法。
背景技术
信息工程项目的投资控制要求在批准的预算条件下确保项目保质按期完成。即指在项目投资的形成过程中,对项目所消耗的人力资源、物质资源和费用开支进行指导、监督、调节和限制,及时纠正即将发生和已经发生的偏差,把各项项目费用控制在计划投资的范围之内,保证投资目标的实现。信息工程项目投资控制的目的在于降低项目成本,提高经济效益。信息系统工程项目投资控制由一些过程组成,其中一个最重要的过程是成本估算,计算完成项目中的所需各资源(人、材料、设备等)成本的近似值。成本估算的方法通常使用类比估计法。该方法使用先前类似项目的实际数据作为估计现在项目的基础。在信息系统工程监理服务的过程中,成本估算通常利用各单位积累的项目资料和政府相关的政策文件为基础,检索资料来对项目中的资源的成本进行估算。
现有技术存在如下缺点:(1)无法找到类似项目的实际数据。由于单位项目积累不足,找不到类似的项目进行估算参考。(2)数据的时效性无法保证。特别是在材料、设备等成本的估算时,如果将若干年前的项目数据作参考,那么成本估算的结果将存在较大的偏差。(3)检索效率低下。历史项目文档或资料未进行预处理,对文档进行分类、标签化,难以检索出需要的数据。
发明内容
本发明要解决的技术问题在于,针对现有技术的上述缺陷,提供一种能找到类似项目的实际数据、能保证数据的时效性、检索效率较高的基于爬虫技术的信息系统监理价格库生成方法。
本发明解决其技术问题所采用的技术方案是:构造一种基于爬虫技术的信息系统监理价格库生成方法,包括如下步骤:
A)收集发布中标结果公告的网站信息;
B)通过网络爬虫工具抓取中标结果公告;
C)将抓取的网页资料按一定的规则创建目录,分类存放在下载资料库中;所述目录按照如下层次进行存储:域名、日期、公告标题、公告、招标文件和报价明细;
D)采用分析处理程序分析所述下载资料库中的中标结果公告,按照域名和日期提取新采集到的中标结果公告和报价明细表;
E)所述分析处理程序对中标结果公告文件和招标文件进行解析,从中提取项目信息并将其存入价格库;
F)所述分析处理程序将所述招标文件和报价明细表自动上传到文档管理系统,将所述项目信息作为文件标签和属性,附加到上传的所述招标文件和报价明细表中,并获取所述招标文件和报价明细表在所述文档管理系统中的URL;
G)所述分析处理程序对所述报价明细表进行解析,提取资源报价信息并将其存入到价格库中形成价格记录,同时每条价格记录关联上对应的项目信息和项目文件的URL;所述项目文件包括招标文件和报价明细表;
H)所述文档管理系统自动对所述招标文件和报价明细表进行索引操作,创建索引,获取关键词,根据文件标签和属性对检索的结果进行过滤;
I)采用价格检索程序进行资源报价检索;
J)对价格检索结果进行过滤;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东省计算技术应用研究所,未经广东省计算技术应用研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910115446.1/2.html,转载请声明来源钻瓜专利网。