[发明专利]一种可复用的法条推荐框架在审
申请号: | 201911009434.7 | 申请日: | 2019-10-21 |
公开(公告)号: | CN110717843A | 公开(公告)日: | 2020-01-21 |
发明(设计)人: | 李传艺;葛季栋;冯奕;黄云云;周晓松;周筱羽;骆斌 | 申请(专利权)人: | 南京大学 |
主分类号: | G06Q50/18 | 分类号: | G06Q50/18;G06F16/9535;G06N3/04;G06N3/08;G06F40/289;G06K9/62 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 210093 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 法条 预处理 案件 构建 排序 引用 标签分类 排序策略 输出空间 向量表示 训练语料 语义向量 语义信息 真实场景 中文分词 裁判 可复用 取出 筛选 关联 输出 学习 优化 | ||
1.一种可复用的法条推荐框架,其特征在于包含以下步骤:
步骤(1)从中国裁判文书网中随机提取裁判文书集,构建训练语料;
步骤(2)裁判文书预处理;
步骤(3)用户输入预处理;
步骤(4)法条集预排序;
步骤(5)提取推荐法条集;
步骤(6)输出推荐法条列表。
2.根据权利要求1所述的一种可复用的法条推荐框架,其特征在于步骤(1)中从中国裁判文书网中随机提取裁判文书集,构建训练语料。
3.根据权利要求1所述的一种可复用的法条推荐框架,其特征在于步骤(2)中裁判文书预处理,具体子步骤包括:
步骤(2.1)使用正则表达式从裁判文书中抽取出案件基本情况段落和引用法条列表;
步骤(2.2)将案件基本情况段落进行中文分词,转化成由词汇组成的列表,同时得到语料库包含的所有词汇的集合;
步骤(2.3)去停用词。首先构建法律专有停用词列表,其内容包括:连词、介词一类的常用停止词;时间、地点、人名一类的专有名词;频繁出现在裁判文书中但对区别具体案件没有实际作用的法律专有词汇。接着去除整个数据集中的所有停用词;
步骤(2.4)学习案件基本情况的词向量表示模型。基于以上步骤获取的语料词汇集合,利用Word2vec模型训练得到案件基本情况的词向量表示模型;
步骤(2.5)构建法条推荐任务的输出空间。将训练语料中每一篇裁判文书引用的法条合并起来,从中挑选频次相对较高的法条构成该任务的输出空间;
步骤(2.6)学习法条的语义向量模型。学习一个关于案件基本情况的语言模型,以一篇案件基本情况中的上下文词汇及其所引用的法条为输入,预测对应的中心词汇。通过不断优化该模型的预测效果,同时学习得到了法条的语义向量模型。
4.根据权利要求1所述的一种可复用的法条推荐框架,其特征在于步骤(3)中对用户输入的案件基本情况进行预处理,具体子步骤包括:
步骤(3.1)中文分词;
步骤(3.2)去除法律专有停用词;
步骤(3.3)将案件基本情况转化为固定大小的词向量表示。
5.根据权利要求1所述的一种可复用的法条推荐框架,其特征在于步骤(4)中将案件基本情况转换为语义表达,并以此为依据对输出空间中的所有法条进行预排序。具体子步骤包括:
步骤(4.1)训练法条集的预排序模型。该模型以词向量表示的案件基本情况为输入,首先通过双向GRU捕捉案件基本情况的时序信息,得到一个中间向量;接着分别通过注意力机制和最大池化层得到了两个关于案件基本情况的不同层面的语义表示向量;最后基于一个全连接神经网络结合注意力向量和最大池化向量的语义信息得到输出空间中所有法条的概率值。基于训练语料不断对该模型进行训练,训练目标是让被引用的法条经模型计算得到的概率尽可能的大;
步骤(4.2)使用上述训练好的预排序模型根据用户输入的案件基本情况,按照每个法条的被引用概率降序排序,选择前K1个法条组成候选推荐法条集,等待进一步处理。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京大学,未经南京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911009434.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:团票信息生成方法及装置
- 下一篇:一种教学管理服务平台