[发明专利]基于自然语言处理技术对招标中标公告进行要素抽取的方法、设备及计算机可读存储介质在审
申请号: | 202110303073.8 | 申请日: | 2021-03-22 |
公开(公告)号: | CN114510903A | 公开(公告)日: | 2022-05-17 |
发明(设计)人: | 王海晨 | 申请(专利权)人: | 上海海隆软件有限公司 |
主分类号: | G06F40/126 | 分类号: | G06F40/126;G06F40/242;G06F16/35;G06Q30/06 |
代理公司: | 北京市浩东律师事务所 11499 | 代理人: | 张乐中 |
地址: | 200000 上海市*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 自然语言 处理 技术 招标 中标 公告 进行 要素 抽取 方法 设备 计算机 可读 存储 介质 | ||
1.基于自然语言处理技术对招标中标公告进行要素抽取的方法,其特征在于:包括以下步骤,
S1:获取训练样本;
S2:标注训练样本;
S3:增强训练样本;
S4:组合训练样本;
S5:训练判别模型;
S6:训练抽取模型;
S7:整合判别模型和抽取模型进行关键字段抽取。
2.根据权利要求1所述的基于自然语言处理技术对招标中标公告进行要素抽取的方法,其特征在于:所述S1中获取训练样本包括:
S11:从公开的招标中标信息中取得招标中标非结构化数据;
S12:同时从公开的招标中标信息中取得招标中标结构化数据,公开的信息中也会存在部分或全部结构化数据,将结构化数据记为关键字段。
3.根据权利要求2所述的基于自然语言处理技术对招标中标公告进行要素抽取的方法,其特征在于:所述S2中标注训练样本包括;
S21:在所述S11中取得的数据中使用正则表达式匹配所述S12中取得的关键字段;
S22:在所述S21匹配的过程中需要使用对齐关键字段的手段提高匹配精度;
S23:记录所述S21中关键字段在所述S11中文档内的位置,如此可得到一份自动标注的数据;
S24,重复所述S21~S23步骤,此时可以得到大部分标注数据;
S25:对于未能在所述S12中取得的其他关键字段,进行人工数据标注,此时的标注工作量相对于全部人工标注来说已经大大减少到可接受程度。
4.根据权利要求3所述的基于自然语言处理技术对招标中标公告进行要素抽取的方法,其特征在于:所述S3中增强训练样本包括:
S31:建立关键字段类别相似语料词典;
S32:使用所述S31中的词典,对所述S2中的训练样本进行语料替换,生成更多的训练样本,起到样本增强效果。
5.根据权利要求4所述的基于自然语言处理技术对招标中标公告进行要素抽取的方法,其特征在于:所述S4中组合训练样本包括:
把训练样本按如下规则重新组合:先以章/段落作为1个样本的最小单位,计算样本长度,如果大于特定阈值,则再把样本在换行处切分。
6.根据权利要求5所述的基于自然语言处理技术对招标中标公告进行要素抽取的方法,其特征在于:所述S5中训练判别模型包括:
S51:判别模型为判断所述S4中生成的1份样本中是否包含抽取的关键字段;模型输出为2分类:包含关键字段(1)和不包含关键字段(0);
S52:通过所述S2中已记录关键字段在样本中的位置,可知1份样本中是否包含需要抽取的关键字段,由此可生成判别模型训练需要的样本;
S53:使用BERT进行判别模型对2分类进行的训练。
7.根据权利要求6所述的基于自然语言处理技术对招标中标公告进行要素抽取的方法,其特征在于:所述S6中训练抽取模型包括:
使用BERT+CRF通过BIOES标注法进行抽取模型的训练。
8.根据权利要求7所述的基于自然语言处理技术对招标中标公告进行要素抽取的方法,其特征在于:所述S7中,整合判别模型和抽取模型进行关键字段抽取包括:
先通过所述S5的判别模型判断“包含或不包含”,如果判别模型输出为“包含”关键字段(1),再通过所述S6中的抽取模型进行关键字段的抽取。
9.一种电子设备,其特征在于:包括:处理器以及存储器,所述存储器用于存储所述处理器的可执行指令;所述处理器配置为经由执行所述可执行权利要求1~8中任一项所述的基于自然语言处理技术对招标中标公告进行要素抽取的方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于:所述计算机程序被处理器执行时实现如权利要求1至8中任意一项所述的基于自然语言处理技术对招标中标公告进行要素抽取的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海海隆软件有限公司,未经上海海隆软件有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110303073.8/1.html,转载请声明来源钻瓜专利网。