[发明专利]一种合同标注方法及装置在审
申请号: | 201910752445.8 | 申请日: | 2019-08-15 |
公开(公告)号: | CN110705225A | 公开(公告)日: | 2020-01-17 |
发明(设计)人: | 郭于丹;肖丰阳;陈卫 | 申请(专利权)人: | 平安信托有限责任公司 |
主分类号: | G06F40/169 | 分类号: | G06F40/169;G06F40/117;G06N3/04;G06N3/08 |
代理公司: | 11444 北京汇思诚业知识产权代理有限公司 | 代理人: | 冯晓平 |
地址: | 518000 广东省深圳市福田区福田街道益田路5033号平安金融中心27层(东北*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 标注 业务类型 测试集 合同 样本 训练样本集 合同样本 合同要素 人工智能技术 初始样本集 结果判断 样本集合 优化训练 准确率 构建 预存 抽取 测试 输出 优化 | ||
1.一种合同标注方法,其特征在于,所述方法包括:
从每个业务类型的合同中抽取至少一份合同样本,得到初始样本集,所述合同样本中包括多个人工标注的合同要素;
基于每个所述业务类型的合同样本构建并训练初始标注模型;
获取预存的各个所述业务类型的多份合同,并按照预设的比例分为样本扩充集和测试集;
利用所述初始标注模型标注所述样本扩充集中的合同中的合同要素;
将标注后的所述样本扩充集与所述初始样本集合并为训练样本集,并利用所述训练样本集优化训练所述初始标注模型,得到标注模型;
将所述测试集输入所述标注模型,并获取所述标注模型输出的所述测试集中的合同的标注结果;
根据所述测试集的标注结果判断是否需要继续优化所述标注模型,直至所述标注模型的标注准确率大于预设值。
2.根据权利要求1所述的方法,其特征在于,所述基于每个所述业务类型的合同样本构建并训练初始标注模型,包括:
构建初始标注模型,所述初始标注模型为长短时记忆神经网络模型;
向所述初始标注模型输入所述初始样本集,其中,所述长短时记忆神经网络学习每个合同样本中人工标注的合同要素的向量序列及与所述合同要素关联的标签的类别向量;
通过误差最小化的策略训练所述初始标注模型。
3.根据权利要求2所述的方法,其特征在于,所述合同要素包括层级分布的一级要素、二级要素及三级要素,所述标签也呈现层级关系,所述标签包括一级标签、所述一级标签下的二级标签、所述二级标签下的三级标签;所述基于每个所述业务类型的合同样本构建并训练初始标注模型,包括:
构建初始标注模型;
向所述初始标注模型输入所述初始样本集,其中,所述长短时记忆神经网络提取每个合同样本中与所述一级标签关联的一级要素的向量序列、与所述二级标签关联的二级要素的向量序列、与所述三级标签关联的三级要素的向量序列;
基于所述一级要素的向量序列、所述二级要素的向量序列、所述三级要素的向量序列与所述标签的类型向量,通过误差最小化的策略训练所述初始标注模型。
4.根据权利要求3所述的方法,其特征在于,所述利用所述初始标注模型标注所述样本扩充集中的合同中的合同要素,包括:
所述初始标注模型依据所述一级标签对所述样本扩充集中的合同进行标注,得到一级要素;
根据所述一级标签获取至少一个二级标签,并根据所述二级标签对所述合同进行标注,得到与所述一级要素关联的至少一个二级要素;
根据所述二级标签获取至少一个三级标签,并根据所述三级标签对所述合同进行标注,得到与所述二级要素关联的至少一个三级要素。
5.根据权利要求1所述的方法,其特征在于,所述根据所述测试集的标注结果判断是否需要继续优化所述标注模型,直至所述标注模型的标注准确率大于预设值,包括:
将所述测试集中的合同的人工标注结果与所述标注模型输出的标注结果相比较,得到所述标注模型的关于每个所述业务类型的合同的标注准确率;
判断每个所述业务类型的标注准确率是否大于所述预设值;
剔除多个所述业务类型中所述标注准确率大于所述预设值的业务类型,得到需要继续优化的目标业务类型;
基于所述用户的修正指令修正所述目标业务类型的合同的标注结果;
用修正后的所述目标业务类型的合同优化训练所述标注模型,直至所述标注模型的标注准确率大于预设值。
6.根据权利要求1~5任意一项所述的方法,其特征在于,在所述利用所述初始标注模型标注所述样本扩充集中的合同中的合同要素之前,所述方法还包括:
筛选出所述样本扩充集中的待处理的合同样本,其中,所述待处理的合同样本的格式为图档;
通过霍夫变换方法找到各个所述待处理的合同样本的倾斜角度,并基于所述倾斜角度采用双线性插值对所述待处理的合同样本进行旋转矫正;
识别所述旋转矫正后的合同样本,得到合同文本;
用所述合同文本替换所述样本扩充集中的所述待处理的合同样本。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安信托有限责任公司,未经平安信托有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910752445.8/1.html,转载请声明来源钻瓜专利网。