[发明专利]相似文本确定方法、神经网络模型获得方法及相关装置有效
申请号: | 201811161121.9 | 申请日: | 2018-09-30 |
公开(公告)号: | CN110991161B | 公开(公告)日: | 2023-04-18 |
发明(设计)人: | 戴泽辉 | 申请(专利权)人: | 北京国双科技有限公司 |
主分类号: | G06F40/194 | 分类号: | G06F40/194;G06F40/279;G06N3/0464;G06N3/08 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 张建;王宝筠 |
地址: | 100083 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 相似 文本 确定 方法 神经网络 模型 获得 相关 装置 | ||
本发明公开了一种相似文本确定方法、神经网络模型获得方法及相关装置,可以获得待处理的司法文本;对待处理的司法文本进行分词,获得词汇序列;获得词汇序列中各词汇的词汇向量构成的矩阵;将矩阵输入预设的神经网络模型中,获得预设的神经网络模型的部分或全部网络层输出的特征向量;将获得的各特征向量拼接为一个与待处理的司法文本对应的特征向量;根据待处理的司法文本对应的特征向量分别与预设司法文本库中各司法文本对应的特征向量的相似度,从预设司法文本库中确定与待处理的司法文本相似的司法文本。本发明可以自动确定相似的司法文本,无需用户手动查找,方便快捷。
技术领域
本发明涉及司法文本处理技术领域,尤其涉及相似文本确定方法、神经网络模型获得方法及相关装置。
背景技术
在司法领域,用户常需要查询与某个司法案件相似的其他司法案件的裁判文书。例如:法官想查看自己对某个司法案件的判决是否合适,就需要通过关键词从海量的裁判文书中进行查找,然后逐个查看裁判文书的具体内容来确定是否相似。
从上述过程中可以看出,用户自行查询的方式十分繁琐,效率较低,因此急需一种可以快速确定相似裁判文书的方案。当然,除裁判文书外,其他司法文本,如起诉书、律师函等,用户也可能需要查找相似司法文本。
发明内容
鉴于上述问题,本发明提供一种克服上述问题或者至少部分地解决上述问题的相似文本确定方法、神经网络模型获得方法及相关装置,方案如下:
一种相似文本确定方法,包括:
获得待处理的司法文本;
对所述待处理的司法文本进行分词,获得词汇序列;
获得所述词汇序列中各词汇的词汇向量构成的矩阵;
将所述矩阵输入预设的神经网络模型中,获得所述预设的神经网络模型的部分或全部网络层输出的特征向量;
将获得的各特征向量拼接为一个与所述待处理的司法文本对应的特征向量;
根据所述待处理的司法文本对应的特征向量分别与预设司法文本库中各司法文本对应的特征向量的相似度,从所述预设司法文本库中确定与所述待处理的司法文本相似的司法文本。
可选的,所述获得所述词汇序列中各词汇的词汇向量构成的矩阵,包括:
对所述词汇序列中的每个词汇:获得该词汇的词向量及词性向量,将该词汇的词向量及词性向量拼接为该词汇的词汇向量;
按照所述词汇序列中各词汇的排列顺序对所述词汇序列中各词汇的词汇向量进行排列,获得所述词汇序列中各词汇的词汇向量构成的矩阵。
可选的,所述预设的神经网络模型为卷积神经网络模型,所述卷积神经网络模型的输入为:词汇向量构成的矩阵,所述卷积神经网络模型的输出为:司法信息。
可选的,所述司法信息包括:罪名、刑期、引用的法条中的至少一种,和/或,所述司法文本为:案情描述文本。
可选的,所述获得所述预设的神经网络模型的部分或全部网络层输出的特征向量,包括:
至少获得所述预设的神经网络模型的第一预设网络层输出的特征向量和第二预设网络层输出的特征向量,其中,所述第一预设网络层与所述预设的神经网络模型的输出层之间的层数小于第一预设层数,所述第二预设网络层与所述预设的神经网络模型的输入层之间的层数小于第二预设层数,所述第一预设网络层和所述第二预设网络层之间的层数大于第三预设层数。
一种神经网络模型获得方法,包括:
获得标注有司法信息的训练文本,所述训练文本为司法文本;
对所述训练文本进行分词,获得词汇序列;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京国双科技有限公司,未经北京国双科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811161121.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种封闭仓库智能监控系统
- 下一篇:一种法律文书的确定方法及系统