[发明专利]一种合同导航方法及装置在审
申请号: | 202111134365.X | 申请日: | 2021-09-27 |
公开(公告)号: | CN113836941A | 公开(公告)日: | 2021-12-24 |
发明(设计)人: | 孟令成;丁凯;龙腾;郭丰俊;镇立新 | 申请(专利权)人: | 上海合合信息科技股份有限公司;上海生腾数据科技有限公司;上海临冠数据科技有限公司;上海盈五蓄数据科技有限公司 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F40/284;G06F40/211;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 上海双霆知识产权代理事务所(普通合伙) 31415 | 代理人: | 殷晓雪 |
地址: | 200436 上海市静安区万荣*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 合同 导航 方法 装置 | ||
本申请公开了一种合同导航方法,包括如下步骤。步骤S10:对合同文件进行预处理,以得到合同文件的自然段落、每个自然段落中的文本块、每个文本块对应的词片序列、每个文本块过滤得到的元。步骤S20:提供多份合同文件对BERT模型进行预训练。步骤S30:对一份纯文本形式的合同文件进行语义段落的划分。步骤S40:基于统计的方法对合同文件提取每一个语义段落的候选关键词。步骤S50:根据某一个语义段落的每一个候选关键词与整份合同文件之间的相似性、以及同一个语义段落的候选关键词之间的相似性,从每一个语义段落的候选关键词中确定每一个语义段落的关键词。本申请能够帮助合同审阅者快速全面地了解合同文件的重要信息。
技术领域
本申请涉及一种基于深度学习(deep learning)技术的合同导航方法。
背景技术
合同导航是指对合同文件根据语义进行段落划分(划分后的段落称为语义段落)、确定各语义段落的关键词、对语义段落的重要性提示等,有助于签署方、审核方快速捕捉到合同的关键信息。
发明内容
本申请所要解决的技术问题是提出一种合同导航方法。为此,本申请还要提出一种合同导航装置。
为解决上述技术问题,本申请提出了一种合同导航方法,包括如下步骤。步骤S10:对合同文件进行预处理,以得到合同文件的自然段落、每个自然段落中的文本块、每个文本块对应的词片序列、每个文本块过滤得到的元。步骤S20:提供多份合同文件对BERT模型进行预训练。步骤S30:对一份纯文本形式的合同文件进行语义段落的划分。步骤S40:基于统计的方法对合同文件提取每一个语义段落的候选关键词。步骤S50:根据某一个语义段落的每一个候选关键词与整份合同文件之间的相似性、以及同一个语义段落的候选关键词之间的相似性,从每一个语义段落的候选关键词中确定每一个语义段落的关键词。
进一步地,所述步骤S10中具体包括添加换行符、文档切分、第一文本分词、第二文本分词。所述添加换行符是指在纯文本形式的合同文件中设置换行符。所述文档切分是指在纯文本形式的合同文件中基于换行符得到一个个自然段落,然后再将每一个自然段落切分为一个或多个文本块,同时记录每个文本块来源于哪一个自然段落。所述第一文本分词是指将一个文本块切分为由多个词片构成的一个词片序列。所述第二文本分词是指将一个文本块切分过滤后得到元。这是步骤S10中必不可少的内容。
优选地,当某一文字行的宽度小于其他文字行时,在宽度较小的文字行末尾添加换行符。
优选地,当某两个文字行的行间距大于其他行间距时,在具有较大行间距的上面一个文字行末尾添加换行符。
进一步地,采用滑窗方式来切分文本块,相邻的两个文本块之间有部分字符是重复的;或者采用分割方式来切分文本块,相邻的两个文本块之间没有重复字符。
进一步地,所述第一文本分词是先使用第一分词器将文本块按中文字符、英文字符、格式标记符、特殊字符、空白字符分割为多个令牌,再使用第二分词器将每个令牌再次分割得到一个或多个词片,由同一个文本块切分得到的词片是一个词片序列。
进一步地,所述第二文本分词是先使用第三分词器将文本块进行分词得到具有词性标注的多个令牌;然后仅保留名词令牌;再使用n元模型将多个相邻的名词令牌合并后得到元。
进一步地,所述步骤S10中还包括格式转换、特殊字符替换、全半角转换、简繁体转换、内容标准化的任一种或多种。所述格式转换是指将不同格式的合同文件统一转换为纯文本的形式。所述特殊字符替换是指将原始文件中的非英文的外文字符、除换行符以外的格式标记符统一改为纯文本中的空格、或在纯文本中删除掉。所述全半角转换是指将原始文件中的全角字符统一转换为纯文本中的半角字符。所述简繁体转换是指将原始文件中的繁体中文字符统一转换为纯文本中的简体中文字符。所述内容标准化是将原始文件中的格式化的文本在纯文本中转换为标签形式。这是步骤S10中的可选内容。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海合合信息科技股份有限公司;上海生腾数据科技有限公司;上海临冠数据科技有限公司;上海盈五蓄数据科技有限公司,未经上海合合信息科技股份有限公司;上海生腾数据科技有限公司;上海临冠数据科技有限公司;上海盈五蓄数据科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111134365.X/2.html,转载请声明来源钻瓜专利网。