[发明专利]基于自然语言处理技术对招标中标公告进行要素抽取的方法、设备及计算机可读存储介质在审
申请号: | 202110303073.8 | 申请日: | 2021-03-22 |
公开(公告)号: | CN114510903A | 公开(公告)日: | 2022-05-17 |
发明(设计)人: | 王海晨 | 申请(专利权)人: | 上海海隆软件有限公司 |
主分类号: | G06F40/126 | 分类号: | G06F40/126;G06F40/242;G06F16/35;G06Q30/06 |
代理公司: | 北京市浩东律师事务所 11499 | 代理人: | 张乐中 |
地址: | 200000 上海市*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 自然语言 处理 技术 招标 中标 公告 进行 要素 抽取 方法 设备 计算机 可读 存储 介质 | ||
本发明属于招标要素抽取技术领域,具体涉及基于自然语言处理技术对招标中标公告进行要素抽取的方法、设备及计算机可读存储介质。其公开了基于自然语言处理技术对招标中标公告进行要素抽取的方法,包括以下步骤,S1:获取训练样本;S2:标注训练样本;S3:增强训练样本;S4:组合训练样本;S5:训练判别模型;S6:训练抽取模型;S7:整合判别模型和抽取模型进行关键字段抽取。本发明提出了样本自动标注的方法,使得在模型训练中可以更容易的获得更多标注数据,样本标注数量对模型的质量起到至关重要的作用;将常见的抽取模型算法进一步分成使用判别模型和抽取模型2步进行,鉴于以上2点改进,本发明相对于现有技术可提升识别效率和效果。
技术领域
本发明属于招标要素抽取技术领域,具体涉及基于自然语言处理技术对招标中标公告进 行要素抽取的方法、设备及计算机可读存储介质。
背景技术
企业招标中标公告通常没有固定模版格式,多为非结构化数据,而这些非结构化数据中 包含的如“招标方式”,“招标人”,“开标时间”,“中标公司”,“中标金额”等这些 关键字段如能够被抽取出来形成结构化数据,企业就可以更好地利用这些数据进行数据分析, 数据挖掘,辅助决策;
传统的抽取通常由人工手动完成,这需要人工从招标中标公告中逐个复制粘贴关键字段 形成结构化数据,这种方式会耗费大量人力物力财力,已经无法适应现今时时刻刻产生海量 数据的情况;因此设计了一种替代的方案,其通过使用基于规则的方法,通来讲这需要使用 正则表达式;正则表达式基于特定语法提供精确的字符串匹配功能,但要从a、“招标人XX 软件”,b、“招标人XX软件”,c、“[招标人]:XX软件”,d、“招标人为XX软件”, e、“XX软件为本次招标的招标人”,f、“本次招标的招标单位为XX软件”中匹配出语句 中的关键字段“XX软件”一般需要为不同的说法编写不同的正则表达式;基于规则的方法的 特点是在已知固定格式的前提下可以做到精确匹配,而由于招标中标公告通常没有固定模版格式,所以基于规则的方法缺乏泛化性;而另一种方案是使用自然语言处理技术(NLP)来抽取关键字段,在NLP技术中通常使用NER任务来实现抽取功能;现有的基于NLP技术的解决方案较好的解决了基于规则的方法缺乏泛化性的问题,但在应用于招标中标公告中关键字段 抽取的实践中存在如下困难:
1、训练模型需要大量人工标柱数据,而这些标柱数据的获得需要大量人力物力财力;
2、模型训练时通常以单句或者多句组成的段落为样本,对模型来说各样本间并无关联, 这可能会导致关键字段在样本1中被检出,在样本2(样本1的下一句或下一段)中再次被 检出。
发明内容
针对上述背景技术所提出的问题,本发明的目的是:旨在提供基于自然语言处理技术对 招标中标公告进行要素抽取的方法、设备及计算机可读存储介质。
基于自然语言处理技术对招标中标公告进行要素抽取的方法,包括以下步骤,
S1:获取训练样本;
S2:标注训练样本;
S3:增强训练样本;
S4:组合训练样本;
S5:训练判别模型;
S6:训练抽取模型;
S7:整合判别模型和抽取模型进行关键字段抽取。
作为本发明的一种优选方案,所述S1中获取训练样本包括:
S11:从公开的招标中标信息中取得招标中标非结构化数据;
S12:同时从公开的招标中标信息中取得招标中标结构化数据,公开的信息中也会存在部 分或全部结构化数据,将结构化数据记为关键字段。
作为本发明的一种优选方案,所述S2中标注训练样本包括;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海海隆软件有限公司,未经上海海隆软件有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110303073.8/2.html,转载请声明来源钻瓜专利网。