[发明专利]一种面向法律文本的多关系中主要关系的抽取方法有效
申请号: | 202110693377.X | 申请日: | 2021-06-22 |
公开(公告)号: | CN113377916B | 公开(公告)日: | 2023-03-24 |
发明(设计)人: | 赵铁军;杨沐昀;徐冰;徐家豫;朱聪慧;曹海龙 | 申请(专利权)人: | 哈尔滨工业大学 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/34;G06F16/36;G06F40/295;G06F40/30;G06N3/0442;G06N3/08 |
代理公司: | 哈尔滨市阳光惠远知识产权代理有限公司 23211 | 代理人: | 刘景祥 |
地址: | 150001 黑龙*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 法律 文本 关系 主要 抽取 方法 | ||
本发明公开了一种面向法律文本的多关系中主要关系的抽取方法。步骤1:根据选定的法律条文文本进行实体及实体间关系的定义;步骤2:根据步骤1的法律实体定义和关系定义,确定对法律原文的序列标注方式;步骤3:根据步骤2对法律原文的序列标注方式,构建特定语料库;步骤4:利用步骤3的特定语料库,训练特定领域任务的识别模型,处理模型预测后的标注结果,将标注结果转换为关系输出,并结合已有特定关系输出输入法律文本的关系并确认主要关系。本发明用以解决领域内知识体系复杂,实体间关系重叠性较高,上下文依赖性较强,提及关系抽取困难的问题。
技术领域
本发明属于自然语言处理领域;具体涉及一种面向法律文本的多关系中主要关系的抽取方法。
背景技术
关系抽取是属于自然语言处理中信息抽取的一部分,是自然语言处理中一个很重要的工作,相关研究对特定领域知识图谱构建以及自然语言处理中的命名实体识别、关系抽取、知识挖掘等方向有着重要作用。关系抽取可分为全局关系抽取与提及关系抽取,全局关系抽取是基于一个很大的语料库,抽取其中所有的关系对,而提及关系抽取是判断一句话中,一个实体对是否存在关系以及存在哪种关系的工作。
现有的特定领域的提及关系抽取系统存在如下问题,由于各领域知识体系内容不一致,实体定义和关系定义需要该领域专业人士或熟悉领域知识的人定义;根据不同任务,对领域内知识的实体定义和关系定义的不相同,现存的语料库不能实现特定领域任务的完成;领域内知识体系复杂,实体间关系重叠性较高,上下文依赖性较强,提及关系抽取困难。
发明内容
本发明提供了一种面向法律文本的多关系中主要关系的抽取方法。用以解决上述问题。
本发明通过以下技术方案实现:
一种面向法律文本的多关系中主要关系的抽取方法,所述抽取方法包括以下步骤:
步骤1:根据选定的法律条文本进行实体及实体间关系的定义;
步骤2:根据步骤1的法律实体定义和关系定义,对法律原文的序列标注方式;
步骤3:根据步骤2对法律原文的序列标注方式,构建特定语料库;
步骤4:利用步骤3的特定语料库,训练特定领域任务的识别模型,处理识别模型预测后的标注结果,将标注结果转换为关系输出,并结合已有特定关系输出待识别法律文本的关系并确认主要关系。
进一步的,所述步骤1具体为,在对中国民法法律原文整体筛选,对法律进行通读,得到法律原文中存在的法律术语,通过对法律原文词典的构造,其中法律行为、权利和责任出现频率较高,为法律术语类别的定义和分类提供依据;
构建一个法律关系需要三要素:法律关系主体、法律关系客体,以及法律关系内容;在不同法律关系中,主体和客体的称谓也不一样,在法律关系内容中的核心部分就包含了法律关系中主体和客体的权利和义务,在有了义务这一概念的提出后,就会有责任,民事义务是民事责任的前提,同时上述法律术语在选择的法律中都有相对应的法律术语出现且出现次数多。
进一步的,所述步骤2具体为,将从法律原文中筛选得到的词典中的法律术语定义为以下12个类别,分别为:角色RUL、合同COT、道德原则PRI、资料文书证明MAT、法律关系CON、权利RIG、责任DUT、义务OBL、法律行为BEH、金钱MON、定义DEF和违法犯罪行为ILL。
进一步的,所述步骤2具体为,根据定义好的术语实体类型和对应的实体间关系类型,要完成关系抽取任务,完成命名实体识别任务;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工业大学,未经哈尔滨工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110693377.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:建筑结构补强用支撑结构
- 下一篇:一种皮带机跑偏检测方法、系统、介质和终端