[发明专利]一种合同履约任务提取方法、装置以及设备在审
申请号: | 202211641512.7 | 申请日: | 2022-12-20 |
公开(公告)号: | CN115935948A | 公开(公告)日: | 2023-04-07 |
发明(设计)人: | 叶寒青;谢华平;李岚;施秋勇;洪思睿 | 申请(专利权)人: | 厦门易法通法务信息管理股份有限公司 |
主分类号: | G06F40/205 | 分类号: | G06F40/205;G06F16/35;G06F40/169;G06N20/00 |
代理公司: | 厦门仕诚联合知识产权代理事务所(普通合伙) 35227 | 代理人: | 陈蓓蓓 |
地址: | 361000 福建省厦门*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 合同 履约 任务 提取 方法 装置 以及 设备 | ||
本发明公开了一种合同履约任务提取方法、装置以及设备,其包括:获取待处理合同文件;对所述待处理合同文件进行解析后输入预先训练完成的条款分类模型,通过所述条款分类模型筛选出包含履约事件的待处理条款句子;将所述待处理条款句子输入预先训练完成的事件抽取模型进行履约任务的抽取;对所抽取的所述履约任务进行过滤,得到最终的履约任务结果。能够实现多元化信息的抽取,并且适用更多的应用场景,能够识别复杂、多事件句式和广义任务的应用场景。
技术领域
本发明涉及智能法律技术领域,尤其涉及一种合同履约任务提取方法、装置以及设备。
背景技术
合同履约任务通常指合同履约双方需在合同周期内完成的相关任务,狭义的主要指财务、支付、交付相关的时间、金额、履约周期等信息;广义地还包括履约双方通知义务、验收异议、服务期限等事件的履行时间、履行方式、履行周期等信息。
目前业界的履约任务抽取通常只能针对狭义的、固定句式的合同文本进行履约金额、履约方抽取,无法抽取其他履约信息(如履约周期、履约起止时间),亦难以对复杂句式、包含多个履约事件的句子进行履约任务抽取,在真实场景应用中具有较大的局限性。
另外,常见的履约任务抽取通常基于金额关键词、通用时间表达进行模板设定,需进行大量的定制化/配置化工作,将待识别的句式、词汇、抽取逻辑条件录入系统进行初始化才可使用。对于文本上少量差异但未配置过的合同文本,容易出现识别错误或者无法识别的现象。而对于文本上金额或者时间关键词,由于基于上下文表达,非履约任务的句式又容易出现过度识别的现象。
发明内容
有鉴于此,本发明的目的在于提出一种合同履约任务提取方法、装置以及设备,旨在解决上述问题。
为实现上述目的,本发明提供一种合同履约任务提取方法,所述方法包括:
获取待处理合同文件;
对所述待处理合同文件进行解析后输入预先训练完成的条款分类模型,通过所述条款分类模型筛选出包含履约事件的待处理条款句子;
将所述待处理条款句子输入预先训练完成的事件抽取模型进行履约任务的抽取;
对所抽取的所述履约任务进行过滤,得到最终的履约任务结果。
优选的,所述条款分类模型的训练过程包括:
构建训练用的样本数据;
将所述样本数据输入基于RoBERTa的模型结构进行训练,得到所述条款分类模型。
优选的,所述构建训练用的样本数据,包括:
对合同文件进行解析后得到的合同条款句子按照人工标注句子粒度进行关联,将可关联的合同条款句子标记为正样本,其他则标注为负样本;
将人工标注的履约任务句子与其他未标注的合同文件原文进行随机拼接,拼接后标记为正样本,将其他未标注的合同文件原文进行随机拼接,拼接后标记为负样本;
将合同文件进行解析后的合同条款句子输入所述事件抽取模型进行履约任务的抽取,将抽取结果大于阈值的合同条款句子标记为正样本,其他则标记为负样本。
优选的,所述事件抽取模型的训练过程包括:
对包含履约任务的合同文件进行对应于预设履约事件类型的标注,并对所述履约事件类型对应的事件触发词和关联的事件论元实体进行标注,得到训练数据;
将标注后的所述训练数据输入基于UIE的模型结构进行训练,得到所述事件抽取模型。
优选的,所述预设履约事件类型包括收支类事件以及非收支类事件;其中,所述非收支类事件包括交货履约事件、开发履约事件、开票履约事件、服务期限履约事件、质保期限履约事件、质量异议履约事件和通知履约事件。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于厦门易法通法务信息管理股份有限公司,未经厦门易法通法务信息管理股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211641512.7/2.html,转载请声明来源钻瓜专利网。