[发明专利]一种基于多层知识门的法条与事实关系计算方法在审
申请号: | 201911003330.5 | 申请日: | 2019-10-21 |
公开(公告)号: | CN110737781A | 公开(公告)日: | 2020-01-31 |
发明(设计)人: | 李传艺;葛季栋;李中月;冯奕;周筱羽;骆斌 | 申请(专利权)人: | 南京大学 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F16/33;G06F16/35;G06N3/08;G06Q50/18 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 210093 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 法条 预处理 门机制 多层 准确度 层级关系 方法过滤 过滤效果 模型预测 上级目录 事实关系 输入文本 先验知识 向量表达 预测结果 真实场景 词向量 构建 停用 噪声 梳理 裁判 输出 法官 案件 检查 法律 | ||
1.一种基于多层知识门的法条与事实关系计算方法,其特征在于包含以下步骤:
步骤(1)根据案由从裁判文书数据库中提取裁判文书集,并预处理文书;
步骤(2)建立法律专用停用词典;
步骤(3)训练词向量模型;
步骤(4)用户输入预处理;
步骤(5)预测事实与法条的关系。
2.根据权利要求1所述的一种基于多层知识门的法条与事实关系计算方法,其特征在于步骤(1)中根据案由从裁判文书数据库中提取裁判文书集,并预处理文书,具体子步骤包括:
步骤(1.1)下载指定案由裁判文书集。
步骤(1.2)提取案件查明事实段落和引用法条列表。使用正则表达式从裁判文书中抽取出案件查明事实段落和引用法条列表;
步骤(1.3)法条名称标准化。首先构建法条名称标准的映射关系:使用正则表达式分割引用法条的法律名称和法条编号,去除法律名称中的符号,统计法律名称的引用频次,按降序排列,选择高频法律名称作为标准化目标,接着使用莱文斯坦编辑距离算法来构建法律名称间的映射关系。接着标准化法条名称:使用正则表达式分割引用法条的法律名称和法条编号,去除法律名称中的符号,按照法条名称标准的映射关系,获得标准的法条名称,将法条编号中的阿拉伯数字统一成中文数字,使用下划线将标准化后的法条名称和法条编号连接起来。
步骤(1.4)建立法条上级目录库。根据法条名查询法条上级目录,作为知识门的输入,用于过滤文本中的噪声。
3.根据权利要求1所述的一种基于多层知识门的法条与事实关系计算方法,其特征在于步骤(2)中建立法律专用停用词典,具体子步骤包括:
步骤(2.1)下载通用停用词典;
步骤(2.2)低频及高频词统计。遍历语料库统计出现频次小于20或者频次最高top10的词语。将这些词和通用停用词典合并构建该案由的专用停用词典。
4.根据权利要求1所述的一种基于多层知识门的法条与事实关系计算方法,其特征在于步骤(3)中训练词向量模型,具体子步骤包括:
步骤(3.1)建立法条文本库。根据法条数据库获取所有法律的全文,建立法律文本库;
步骤(3.2)建立训练语料库。将法律文本库和裁判文书集中文书的全文合并,进行中文分词,只保留词性为“n”、”v”、“a”的词,并根据停用词表过滤词语。对于得到的词汇列表用空白隔开并存储在一个txt文件中,构建训练语料库;
步骤(3.4)训练词向量模型。使用训练语料库训练词向量模型。
5.根据权利要求1所述的一种基于多层知识门的法条与事实关系计算方法,其特征在于步骤(4)中对用户输入进行预处理。具体子步骤包括:
步骤(4.1)获取法条正文与上级目录。对于输入的法条,依据法条名从法条数据库和法条上级目录库中分别获取法条正文文本和上级目录;
步骤(4.2)分词与过滤。对于事实和法条正文文本以及法条的多个上级目录都进行分词,只保留词性为“n”、”v”、“a”的词,并根据停用词表过滤词语。
步骤(4.3)文本向量化。使用训练好的词向量模型对事实、法条正文以及法条上级目录文本进行向量化。
6.根据权利要求1所述的一种基于多层知识门的法条与事实关系计算方法,其特征在于步骤(5)中输出事实与法条关系的预测结果。法条与事实的关系预测采用F1值和准确率作为评估标准。具体子步骤包括:
步骤(5.1)计算事实的新表达。将法条的上级目录作为先验知识,连同事实输入知识门计算事实的的新表达,使得对于匹配有用的信息被增强,无用信息被过滤;
步骤(5.2)计算事实的先验知识。依据事实的新表达矩阵计算事实的先验知识向量;
步骤(5.3)计算法条的新表达。将事实先验知识向量和法条输入知识门中,计算法条正文的新表达;
步骤(5.4)CNN抽取文本特征。使用CNN抽取事实和法条的新表达的特征向量;
步骤(5.5)计算事实与法条关系。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京大学,未经南京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911003330.5/1.html,转载请声明来源钻瓜专利网。