[发明专利]基于自然语言处理技术对招标中标公告进行要素抽取的方法、设备及计算机可读存储介质在审

专利信息
申请号: 202110303073.8 申请日: 2021-03-22
公开(公告)号: CN114510903A 公开(公告)日: 2022-05-17
发明(设计)人: 王海晨 申请(专利权)人: 上海海隆软件有限公司
主分类号: G06F40/126 分类号: G06F40/126;G06F40/242;G06F16/35;G06Q30/06
代理公司: 北京市浩东律师事务所 11499 代理人: 张乐中
地址: 200000 上海市*** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 自然语言 处理 技术 招标 中标 公告 进行 要素 抽取 方法 设备 计算机 可读 存储 介质
【权利要求书】:

1.基于自然语言处理技术对招标中标公告进行要素抽取的方法,其特征在于:包括以下步骤,

S1:获取训练样本;

S2:标注训练样本;

S3:增强训练样本;

S4:组合训练样本;

S5:训练判别模型;

S6:训练抽取模型;

S7:整合判别模型和抽取模型进行关键字段抽取。

2.根据权利要求1所述的基于自然语言处理技术对招标中标公告进行要素抽取的方法,其特征在于:所述S1中获取训练样本包括:

S11:从公开的招标中标信息中取得招标中标非结构化数据;

S12:同时从公开的招标中标信息中取得招标中标结构化数据,公开的信息中也会存在部分或全部结构化数据,将结构化数据记为关键字段。

3.根据权利要求2所述的基于自然语言处理技术对招标中标公告进行要素抽取的方法,其特征在于:所述S2中标注训练样本包括;

S21:在所述S11中取得的数据中使用正则表达式匹配所述S12中取得的关键字段;

S22:在所述S21匹配的过程中需要使用对齐关键字段的手段提高匹配精度;

S23:记录所述S21中关键字段在所述S11中文档内的位置,如此可得到一份自动标注的数据;

S24,重复所述S21~S23步骤,此时可以得到大部分标注数据;

S25:对于未能在所述S12中取得的其他关键字段,进行人工数据标注,此时的标注工作量相对于全部人工标注来说已经大大减少到可接受程度。

4.根据权利要求3所述的基于自然语言处理技术对招标中标公告进行要素抽取的方法,其特征在于:所述S3中增强训练样本包括:

S31:建立关键字段类别相似语料词典;

S32:使用所述S31中的词典,对所述S2中的训练样本进行语料替换,生成更多的训练样本,起到样本增强效果。

5.根据权利要求4所述的基于自然语言处理技术对招标中标公告进行要素抽取的方法,其特征在于:所述S4中组合训练样本包括:

把训练样本按如下规则重新组合:先以章/段落作为1个样本的最小单位,计算样本长度,如果大于特定阈值,则再把样本在换行处切分。

6.根据权利要求5所述的基于自然语言处理技术对招标中标公告进行要素抽取的方法,其特征在于:所述S5中训练判别模型包括:

S51:判别模型为判断所述S4中生成的1份样本中是否包含抽取的关键字段;模型输出为2分类:包含关键字段(1)和不包含关键字段(0);

S52:通过所述S2中已记录关键字段在样本中的位置,可知1份样本中是否包含需要抽取的关键字段,由此可生成判别模型训练需要的样本;

S53:使用BERT进行判别模型对2分类进行的训练。

7.根据权利要求6所述的基于自然语言处理技术对招标中标公告进行要素抽取的方法,其特征在于:所述S6中训练抽取模型包括:

使用BERT+CRF通过BIOES标注法进行抽取模型的训练。

8.根据权利要求7所述的基于自然语言处理技术对招标中标公告进行要素抽取的方法,其特征在于:所述S7中,整合判别模型和抽取模型进行关键字段抽取包括:

先通过所述S5的判别模型判断“包含或不包含”,如果判别模型输出为“包含”关键字段(1),再通过所述S6中的抽取模型进行关键字段的抽取。

9.一种电子设备,其特征在于:包括:处理器以及存储器,所述存储器用于存储所述处理器的可执行指令;所述处理器配置为经由执行所述可执行权利要求1~8中任一项所述的基于自然语言处理技术对招标中标公告进行要素抽取的方法。

10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于:所述计算机程序被处理器执行时实现如权利要求1至8中任意一项所述的基于自然语言处理技术对招标中标公告进行要素抽取的方法。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海海隆软件有限公司,未经上海海隆软件有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110303073.8/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top