[发明专利]一种合同标注方法及装置在审
申请号: | 201910752445.8 | 申请日: | 2019-08-15 |
公开(公告)号: | CN110705225A | 公开(公告)日: | 2020-01-17 |
发明(设计)人: | 郭于丹;肖丰阳;陈卫 | 申请(专利权)人: | 平安信托有限责任公司 |
主分类号: | G06F40/169 | 分类号: | G06F40/169;G06F40/117;G06N3/04;G06N3/08 |
代理公司: | 11444 北京汇思诚业知识产权代理有限公司 | 代理人: | 冯晓平 |
地址: | 518000 广东省深圳市福田区福田街道益田路5033号平安金融中心27层(东北*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 标注 业务类型 测试集 合同 样本 训练样本集 合同样本 合同要素 人工智能技术 初始样本集 结果判断 样本集合 优化训练 准确率 构建 预存 抽取 测试 输出 优化 | ||
本发明提供了一种合同标注方法及装置,本发明涉及人工智能技术领域,方法包括:从每个业务类型的合同中抽取至少一份合同样本,得到初始样本集;基于每个业务类型的合同样本构建并训练初始标注模型;获取预存的各个业务类型的多份合同,并分为样本扩充集和测试集;利用初始标注模型标注样本扩充集中的合同中的合同要素;将标注后的样本扩充集与初始样本集合并为训练样本集,并利用训练样本集优化训练初始标注模型,得到标注模型;将测试集输入标注模型,并获取标注模型输出的测试集中的合同的标注结果;根据测试集的标注结果判断是否需要继续优化标注模型。本发明实施例提供的技术方案能够解决现有技术中合同要素的标注准确率低的问题。
【技术领域】
本发明涉及人工智能技术领域,尤其涉及一种合同标注方法及装置。
【背景技术】
目前,企业中需要用到的合同越来越多,合同在审核的时候主要需要审核合同要素是否填写正确,然而人工查找合同要素往往需要耗费大量人力,合同要素分布复杂,审核人员需要清晰准确的获取合同要素之间的关联关系,因此如何提高合同中合同要素的标注准确率,使得审核合同时能够快速获取合同要素成为目前亟待解决的问题。
【发明内容】
有鉴于此,本发明实施例提供了一种合同标注方法及装置,用以解决现有技术中合同要素的标注准确率低的问题。
为了实现上述目的,根据本发明的一个方面,提供了一种合同标注方法,所述方法包括:
从每个业务类型的合同中抽取至少一份合同样本,得到初始样本集,所述合同样本中包括多个人工标注的合同要素;基于每个所述业务类型的合同样本构建并训练初始标注模型;获取预存的各个所述业务类型的多份合同,并按照预设的比例分为样本扩充集和测试集;利用所述初始标注模型标注所述样本扩充集中的合同中的合同要素;将标注后的所述样本扩充集与所述初始样本集合并为训练样本集,并利用所述训练样本集优化训练所述初始标注模型,得到标注模型;将所述测试集输入所述标注模型,并获取所述标注模型输出的所述测试集中的合同的标注结果;根据所述测试集的标注结果判断是否需要继续优化所述标注模型,直至所述标注模型的标注准确率大于预设值。
进一步地,所述基于每个所述业务类型的合同样本构建并训练初始标注模型,包括:构建初始标注模型,所述初始标注模型为长短时记忆神经网络模型;向所述初始标注模型输入所述初始样本集,其中,所述长短时记忆神经网络学习每个合同样本中人工标注的合同要素的向量序列及与所述合同要素关联的标签的类别向量;通过误差最小化的策略训练所述初始标注模型。
进一步地,所述合同要素包括层级分布的一级要素、二级要素及三级要素,所述标签也呈现层级关系,所述标签包括一级标签、所述一级标签下的二级标签、所述二级标签下的三级标签;所述基于每个所述业务类型的合同样本构建并训练初始标注模型,包括:构建初始标注模型;向所述初始标注模型输入所述初始样本集,其中,所述深度卷积神经网络提取每个合同样本中与所述一级标签关联的一级要素的向量序列、与所述二级标签关联的二级要素的向量序列、与所述三级标签关联的三级要素的向量序列;基于所述一级要素的向量序列、所述二级要素的向量序列、所述三级要素的向量序列与所述标签的类型向量,通过误差最小化的策略训练所述初始标注模型。
进一步地,所述利用所述初始标注模型标注所述样本扩充集中的合同中的合同要素,包括:所述初始标注模型依据所述一级标签对所述样本扩充集中的合同进行标注,得到一级要素;根据所述一级标签获取至少一个二级标签,并根据所述二级标签对所述合同进行标注,得到与所述一级要素关联的至少一个二级要素;根据所述二级标签获取至少一个三级标签,并根据所述三级标签对所述合同进行标注,得到与所述二级要素关联的至少一个三级要素。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安信托有限责任公司,未经平安信托有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910752445.8/2.html,转载请声明来源钻瓜专利网。