[发明专利]基于FastText算法的智能法条推荐辅助系统在审
申请号: | 201911333115.1 | 申请日: | 2019-12-23 |
公开(公告)号: | CN111177382A | 公开(公告)日: | 2020-05-19 |
发明(设计)人: | 张世全;贺巧琳;胡兵;张卫华;杨超群;庞彦燕;严若冰 | 申请(专利权)人: | 四川大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06Q50/18 |
代理公司: | 北京汇捷知识产权代理事务所(普通合伙) 11531 | 代理人: | 李宏伟 |
地址: | 610065 四*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 fasttext 算法 智能 法条 推荐 辅助 系统 | ||
1.基于FastText算法的智能法条推荐辅助系统,其特征在于,包括裁判文书数据集、词向量文本库、法律词向量、文档向量文本库、文本分类模型;所述裁判文书数据集用于存储裁判文书;所述词向量文本库用于储存文段类别,所述文档向量文本库用于储存文段类别;所述文段类别是裁判文书中的内容;所述法律词向量由预训练的通用词向量作为起始向量,再使用FastText无监督学习算法在词向量文本库上训练得到的;所述文本分类模型是将训练好的法律词向量作为起始向量,再使用FastText监督学习算法在文档向量文本库上进行文本分类得到的。
2.根据权利要求1所述的基于FastText算法的智能法条推荐辅助系统,其特征在于,所述的裁判文书包含诈骗罪、抢劫、经济犯罪或离婚纠纷案件的裁判文书;所述裁判文书是一个四列的表,每列依次表示标识符、文段类别号、段落序号和文本。
3.根据权利要求1所述的基于FastText算法的智能法条推荐辅助系统,其特征在于,所述文段类别包括判决书名称、案号、当事人信息、案件审理信息、原告诉称、被告辩称、法院认定事实、法院说理部分、裁判依据、案件受理费、上诉法院、文书尾部、第三人述称、法院名称、文书类型、裁判结果和证据。
4.基于FastText算法的智能法条推荐辅助系统的训练方法,其特征在于,包含以下步骤:
A、整理裁判文书,将每份裁判文书排列成四列的表,每列依次表示标识符、文段类别号、段落序号和文本,文段类别号分别是1到17的不间断的自然数,自然数的序号代表的文段类别依次包括判决书名称、案号、当事人信息、案件审理信息、原告诉称、被告辩称、法院认定事实、法院说理部分、裁判依据、案件受理费、上诉法院、文书尾部、第三人述称、法院名称、文书类型、裁判结果和证据,将文段类别号为5、6、7、8、16,裁判文书类别为原告诉称、被告辩称、法院认定事实、法院说理部分、裁判依据、裁判结果,提取到词向量文本库中,将文段类别号为的7、8,裁判文书类别为法院认定事实和法院说理部分提取到文档向量文本库中;
B、对词向量文本库和文档向量文本库中的句子进行分词,即在相邻词之间插入空格,然后再删去包括有“了、吧、的”的无实意停用词;
C、从文段类别号为3的文段类别中提取当事人信息,将词向量文本库和文档向量文本库中对应行的姓名字符串替换成对应的原被告字符串,从文段类别号为9的文段类别提取案件所用的法条字符串,每段法条字符串前添加相同的识别前缀字符串,再将合成的字符串添加到文档向量文本库对应行的行首,合成的字符串分别用空格分隔开;
D、以预训练的通用词向量作为起始向量,使用FastText无监督学习算法在词向量文本库上训练法律词向量;
E、以步骤D中训练好的法律词向量作为起始向量,使用FastText监督学习算法在文档向量文本库上进行文本分类,并得到文本分类模型;
F、将训练好的文本分类模型提供给应用编程接口API供开发者调用,开发者可以得到案情描述文本指定数量的,或置信度高于指定阈值的适用法条。
5.根据权利要求4所述的基于FastText算法的智能法条推荐辅助系统的训练方法,其特征在于,所述的裁判文书包含诈骗罪、抢劫、经济犯罪或离婚纠纷案件的裁判文书;所述裁判文书是一个四列的表,每列依次表示标识符、文段类别号、段落序号和文本,不同类型的案件建立各自的词向量文本库和文档向量文本库,文本库中每行包含同一份裁判文书所有被提取内容。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川大学,未经四川大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911333115.1/1.html,转载请声明来源钻瓜专利网。