[发明专利]案情描述要素提取方法、机器学习模型获得方法及装置在审
申请号: | 201811161122.3 | 申请日: | 2018-09-30 |
公开(公告)号: | CN110969018A | 公开(公告)日: | 2020-04-07 |
发明(设计)人: | 戴泽辉 | 申请(专利权)人: | 北京国双科技有限公司 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06Q50/18;G06N3/04 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 张建;王宝筠 |
地址: | 100083 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 案情 描述 要素 提取 方法 机器 学习 模型 获得 装置 | ||
1.一种案情描述要素提取方法,其特征在于,包括:
获得待处理的司法文本;
对所述司法文本进行分词,获得词汇序列;
获得所述词汇序列中各词汇的词汇向量构成的矩阵;
将所述矩阵输入预设的机器学习模型中,获得所述待处理的司法文本的案情描述要素,所述案情描述要素用于确定所述待处理的司法文本的判决信息。
2.根据权利要求1所述的方法,其特征在于,所述将所述矩阵输入预设的机器学习模型中,获得所述待处理的司法文本的案情描述要素,包括:
将所述矩阵输入预设的机器学习模型中,获得所述预设的机器学习模型输出的所述待处理的司法文本的案情描述要素;
或者,将所述矩阵输入预设的机器学习模型中,根据所述预设的机器学习模型获得的词汇权重和/或语句权重确定所述待处理的司法文本的案情描述要素。
3.根据权利要求1所述的方法,其特征在于,所述获得所述词汇序列中各词汇的词汇向量构成的矩阵,包括:
对所述词汇序列中的每个词汇:获得该词汇的词向量及词性向量,将该词汇的词向量及词性向量拼接为该词汇的词汇向量;
按照所述词汇序列中各词汇的排列顺序对所述词汇序列中各词汇的词汇向量进行排列,获得所述词汇序列中各词汇的词汇向量构成的矩阵。
4.根据权利要求1至3中任一项所述的方法,其特征在于,所述预设的机器学习模型为序列标注模型,或者,所述预设的机器学习模型为下述三种模型中的任一种模型,或者,所述预设的机器学习模型为下述三种模型中的任意两种的结合模型:
卷积神经网络模型、循环神经网络模型、注意力模型。
5.一种机器学习模型获得方法,其特征在于,包括:
获得标注有案情描述要素的训练文本,所述训练文本为司法文本;
对所述训练文本进行分词,获得词汇序列;
获得所述词汇序列中各词汇的词汇向量构成的矩阵;
对所述矩阵及标注的案情描述要素进行机器学习,获得机器学习模型,所述机器学习模型的输入为:词汇向量构成的矩阵,所述机器学习模型的输出为:案情描述要素。
6.一种机器学习模型获得方法,其特征在于,包括:
获得标注有判决信息的训练文本,所述训练文本为司法文本;
对所述训练文本进行分词,获得词汇序列;
获得所述词汇序列中各词汇的词汇向量构成的矩阵;
对所述矩阵及标注的判决信息进行机器学习,获得至少一个词汇的词汇权重和/或至少一个语句的语句权重,根据获得的权重获得机器学习模型,所述机器学习模型的输入为:词汇向量构成的矩阵,所述机器学习模型的输出为:判决预测信息。
7.一种案情描述要素提取装置,其特征在于,包括:
第一文本获得单元,用于获得待处理的司法文本;
第一分词单元,用于对所述司法文本进行分词,获得词汇序列;
矩阵获得单元,用于获得所述词汇序列中各词汇的词汇向量构成的矩阵;
要素获得单元,用于将所述矩阵输入预设的机器学习模型中,获得所述待处理的司法文本的案情描述要素,所述案情描述要素用于确定所述待处理的司法文本的判决信息。
8.一种机器学习模型获得装置,其特征在于,包括:
第二文本获得单元,用于获得标注有案情描述要素的训练文本,所述训练文本为司法文本;
第二分词单元,用于对所述训练文本进行分词,获得词汇序列;
矩阵获得单元,用于获得所述词汇序列中各词汇的词汇向量构成的矩阵;
第一训练单元,用于对所述矩阵及标注的案情描述要素进行机器学习,获得机器学习模型,所述机器学习模型的输入为:词汇向量构成的矩阵,所述机器学习模型的输出为:案情描述要素。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京国双科技有限公司,未经北京国双科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811161122.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种燃气灶的溢液实验装置
- 下一篇:存储盘的控制方法及设备