[发明专利]基于爬虫技术的信息系统监理价格库生成方法在审
申请号: | 201910115446.1 | 申请日: | 2019-02-14 |
公开(公告)号: | CN109977282A | 公开(公告)日: | 2019-07-05 |
发明(设计)人: | 邱全兵;陈进才;胡宇辉;刘沛鹏;张冉 | 申请(专利权)人: | 广东省计算技术应用研究所 |
主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F16/9535;G06F16/955;G06Q30/02 |
代理公司: | 北京联瑞联丰知识产权代理事务所(普通合伙) 11411 | 代理人: | 张清彦 |
地址: | 510033 广东省广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于爬虫技术的信息系统监理价格库生成方法,包括:收集发布中标结果公告的网站信息;抓取中标结果公告;将网页资料按规则创建目录分类存放在下载资料库中;提取中标结果公告和报价明细表;提取项目信息并将其存入价格库;将招标文件和报价明细表自动上传到文档管理系统;提取资源报价信息并存入到价格库中形成价格记录,每条价格记录关联对应的项目信息和项目文件的URL;进行索引操作,创建索引,获取关键词,对检索的结果进行过滤;进行资源报价检索;对价格检索结果进行过滤;自动删除价格库中过时的项目信息和价格信息,以及项目资料库中的对应文档。本发明能找到类似项目的实际数据、能保证数据的时效性、检索效率较高。 | ||
搜索关键词: | 项目信息 中标结果 报价明细表 价格记录 爬虫技术 信息系统 库生成 资料库 过滤 抓取 文档管理系统 报价检索 报价信息 规则创建 价格信息 检索结果 检索效率 类似项目 目录分类 实际数据 索引操作 网页资料 网站信息 项目文件 招标文件 自动删除 时效性 文档 下载 索引 检索 过时 关联 创建 发布 保证 | ||
【主权项】:
1.一种基于爬虫技术的信息系统监理价格库生成方法,其特征在于,包括如下步骤:A)收集发布中标结果公告的网站信息;B)通过网络爬虫工具抓取中标结果公告;C)将抓取的网页资料按一定的规则创建目录,分类存放在下载资料库中;所述目录按照如下层次进行存储:域名、日期、公告标题、公告、招标文件和报价明细;D)采用分析处理程序分析所述下载资料库中的中标结果公告,按照域名和日期提取新采集到的中标结果公告和报价明细表;E)所述分析处理程序对中标结果公告文件和招标文件进行解析,从中提取项目信息并将其存入价格库;F)所述分析处理程序将所述招标文件和报价明细表自动上传到文档管理系统,将所述项目信息作为文件标签和属性,附加到上传的所述招标文件和报价明细表中,并获取所述招标文件和报价明细表在所述文档管理系统中的URL;G)所述分析处理程序对所述报价明细表进行解析,提取资源报价信息并将其存入到价格库中形成价格记录,同时每条价格记录关联上对应的项目信息和项目文件的URL;所述项目文件包括招标文件和报价明细表;H)所述文档管理系统自动对所述招标文件和报价明细表进行索引操作,创建索引,获取关键词,根据文件标签和属性对检索的结果进行过滤;I)采用价格检索程序进行资源报价检索;J)对价格检索结果进行过滤;K)当价格资料超过设定的时效时,自动删除价格库中过时的项目信息和价格信息,以及项目资料库中的对应文档。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东省计算技术应用研究所,未经广东省计算技术应用研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910115446.1/,转载请声明来源钻瓜专利网。