[发明专利]一种基于数据库的招标信息的标准化方法及系统在审
申请号: | 201810127993.7 | 申请日: | 2018-02-08 |
公开(公告)号: | CN108427721A | 公开(公告)日: | 2018-08-21 |
发明(设计)人: | 陈晨;欧凌冰;龚澄源;郑红辉;刘蕊儿 | 申请(专利权)人: | 湖南慧集网络科技有限责任公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06Q30/08 |
代理公司: | 广州嘉权专利商标事务所有限公司 44205 | 代理人: | 伍传松 |
地址: | 410000 湖南省长沙市岳麓区岳*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供了一种基于数据库的招标信息标准化方法,包括网页获取、表格提取、表格去噪、表格标准化、表格格式判断、键值序列提取等步骤。本发明的有益效果为:提供了一种基于数据库的招标信息的标准化方法和系统,通过将招标网页中的招标信息标准化,存入标准化数据库中,使得数据的后续处理变得更加方便,解决了现有技术招标网页都是一些非标准化的HTML代码块,各类数据分析算法无法处理的问题。 | ||
搜索关键词: | 招标信息 标准化 数据库 网页 标准化数据库 数据分析算法 表格格式 表格提取 非标准化 后续处理 键值序列 网页获取 招标 去噪 | ||
【主权项】:
1.一种基于数据库的招标信息标准化方法,其特征在于,包括步骤:S100)网页获取:从网页数据库中获取招标网页;S200)表格提取:从招标网页中提取表格,由于页面中可能存在多个表格的情形,通过能够标识表格属性的ID、CLASS在多个表格中提取记录招标信息的表格;S300)表格去噪:将表格中的噪声标签去除,只保留与表格显示和控制相关的标签;S400)表格标准化:将表格分割成多行多列的单元格,转化成简单表格,使得表格中的每个单元格只占一行一列且只有唯一确定值;S500)表格格式判断:发布招标信息时既可采用将指标放到第一行的横表,也可采用将指标放到第一列的纵表,在抽取表格信息前需判断其是横表还是纵表;取表格的第一行单元格值和第一列单元格值,分别与各个指标进行匹配,比较第一行和第一列单元格值的命中率,若第一行单元格值的命中率高则为横表,否则为纵表;S600)键值序列提取:若表格为横表,则将第一行单元格的值映射到相应的指标,相应列单元格的值即为指标的值,将表格转化成标准化的键值对,进而存储到标准化数据库中;若表格为纵表,则将第一列单元格的值映射到指标,相应行单元格的值即为指标的值,提取键值对存储到标准化数据库中。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖南慧集网络科技有限责任公司,未经湖南慧集网络科技有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810127993.7/,转载请声明来源钻瓜专利网。
- 上一篇:系统日志分类方法
- 下一篇:智能交互方法、电子装置及存储介质