[发明专利]一种招投标信息处理方法、系统和可读存储介质在审
申请号: | 202110660790.6 | 申请日: | 2021-06-15 |
公开(公告)号: | CN113409111A | 公开(公告)日: | 2021-09-17 |
发明(设计)人: | 廉建林;罗杰华;陈家儒 | 申请(专利权)人: | 广州比地数据科技有限公司 |
主分类号: | G06Q30/06 | 分类号: | G06Q30/06;G06F40/30;G06F40/211;G06F16/953;G06F16/35;G06F16/33 |
代理公司: | 广州粤高专利商标代理有限公司 44102 | 代理人: | 张金福 |
地址: | 510620 广东省广州市天河区天河东路15*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 投标 信息处理 方法 系统 可读 存储 介质 | ||
本发明提供一种招投标信息处理方法、系统和可读存储介质,从互联网采集招标信息,获取招标项目详情页链接入口;请求招标公告的详情页链接,解析招标公告的发布时间以及招标公告的具体详情,根据预设的公告分类规则对招标公告进行分类;提取招投标信息的要素,包括项目编号、项目名称、招标人、代理人、投标人。通过本发明的方法及系统可自动、高效获取招投标信息。
技术领域
本发明涉及互联网招投标领域,更具体地,涉及一种招投标信息处理方法、系统和可读存储介质。
背景技术
企业在进行业务处理时需要经常处理招标信息,因此需要实时查看各个招标网站中招标公告最新动态。由此需要安排专门的人员负责监控,但是受限于人工查看信息的低效率,费时费力。而如何自动获取招投标信息是目前亟不可待要解决的。
发明内容
鉴于上述问题,本发明的目的是提供一种招投标信息处理方法、系统和可读存储介质,可自动、高效获取招投标信息。
为解决上述技术问题,本发明的技术方案如下:
本发明第一方面提供了一种招投标信息处理方法,包括以下步骤:
S1:从互联网采集招标信息,获取招标项目详情页链接入口;
S2:请求招标公告的详情页链接,获取招标项目的详情页,在详情页中,解析招标公告的发布时间以及招标公告的具体详情,根据预设的公告分类规则对招标公告进行分类,招标公告的类别包括以下任意一种或多种:公告变更、招标公告、中标信息、招标预告、招标答疑、招标文件、资审结果、法律法规、新闻资讯、拟建项目、展会推广、业主采购,然后存储到orcale数据库中对应分类的表中;
S3:提取招投标信息的要素,包括项目编号、项目名称、招标人、代理人、投标人。
本方案中,步骤S1中,采集招标信息是基于java语言开发的数据采集系统,框架基于开源的webmagic框架。
本方案中,步骤S1中,在招标信息采集的过程中,定位项目的汇总入口,根据特定的jsoup或者Xpath解析规则,或者正则表达式,来获取招标公告详情页链接入口。
本方案中,步骤S3中,提取招投标信息的要素,具体包括:
S31:对招标项目详情页的html数据进行处理,通过python第三方库bs4将html数据转换为文本数据;
S32:对文本数据进行分句;
S33:获取分句后的文本数据中每个字符所属的分类:
S34:通过匹配正常的项目编号和项目名称类别串,得到项目编号和项目名称;
S35:获取招标人、代理人、投标人。
本方案中,步骤S33-S34中,具体包括:
通过字向量+双向LSTM+CRF的深度学习模型得到每个字符所属的分类,具体是B_code,M_code,E_code,S_code,B_name,M_name,E_name,S_name,0这九种分类,分别表示编号开始字符,编号中间字符,编号末尾字符,单个编号字符,名称开始字符,名称中间字符,名称末尾字符,单个名称字符,普通字符;
通过匹配正常的项目编号和项目名称类别串,如B_code+M_code*n+E_code,B_name+M_name*n+E_name,最后得到项目编号和项目名称。
本方案中,步骤S35中,获取招标人、代理人、投标人,具体包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州比地数据科技有限公司,未经广州比地数据科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110660790.6/2.html,转载请声明来源钻瓜专利网。