[发明专利]一种基于神经网络的司法领域关系抽取方法及系统有效
申请号: | 201910145396.1 | 申请日: | 2019-02-27 |
公开(公告)号: | CN109933789B | 公开(公告)日: | 2021-04-13 |
发明(设计)人: | 梁庆中;王晨威;郑坤;姚宏;刘超;董理君;康晓军;李新川;李圣文 | 申请(专利权)人: | 中国地质大学(武汉) |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/216;G06N3/04;G06F16/36 |
代理公司: | 武汉知产时代知识产权代理有限公司 42238 | 代理人: | 孙妮 |
地址: | 430000 湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 神经网络 司法 领域 关系 抽取 方法 系统 | ||
1.一种基于神经网络的司法领域关系抽取方法,其特征在于,包含:
S1、获取司法领域非结构化文本数据,然后通过文本预处理,获取每个文本的结论部分,分词后将其作为语料集,并生成每个语料集对应的实体三元组;
S2、对所述司法领域非结构化文本数据进行TF-IDF词频统计,得到不同罪名及案由所一起构成的特征集;
S3、分别得到语料集和特征集的向量表示,然后将语料集向量和特征集向量进行拼接,从而得到语料集的最终向量序列表示;特征集向量为语料集每个词的词向量*(1+TF-IDF词频权重);采用Word2Vec模型或者Bert模型得到所述语料集和特征集的向量表示;
S4、对最终向量序列表示进行神经网络训练,得到面向司法领域的关系抽取模型;
S5、利用所述关系抽取模型,对待处理的司法领域非结构化文本数据进行司法领域关系抽取,得到对应的实体三元组。
2.根据权利要求1所述的基于神经网络的司法领域关系抽取方法,其特征在于,步骤S1中,获取司法领域非结构化文本数据是指从中国裁判文书网爬取非结构化文本数据集,包含刑事判决书和刑事裁定书两种文本。
3.根据权利要求1所述的基于神经网络的司法领域关系抽取方法,其特征在于,语料集向量由Word Embeddings和Position Embeddings拼接而成,Word Embeddings生成每条语料集的词向量,维度记为dw,Position Embeddings生成每条语料集的位置向量,维度记为dp;特征集向量为语料集每个词的词向量*(1+TF-IDF词频权重),维度记为dti,特征集向量的向量序列表示为
语料集的最终向量序列表示为w={w1,w2,...,wm};
其中,wi=Rd,d=dw+dp*2+dti。
4.一种基于神经网络的司法领域关系抽取系统,其特征在于,包含:
语料集获取模块,用于获取司法领域非结构化文本数据,然后通过文本预处理,获取每个文本的结论部分,分词后将其作为语料集,并生成每个语料集对应的实体三元组;
特征集获取模块,用于对所述司法领域非结构化文本数据进行TF-IDF词频统计,得到不同罪名及案由所一起构成的特征集;
特征集向量为语料集每个词的词向量*(1+TF-IDF词频权重);
最终向量序列表示模块,用于分别得到语料集和特征集的向量表示,然后将语料集向量和特征集向量进行拼接,从而得到语料集的最终向量序列表示;
采用Word2Vec模型或者Bert模型得到所述语料集和所述特征集的向量表示;
模型训练模块,用于对最终向量序列表示进行神经网络训练,得到面向司法领域的关系抽取模型;
关系抽取模块,用于利用所述关系抽取模型,对待处理的司法领域非结构化文本数据进行司法领域关系抽取,得到对应的实体三元组。
5.根据权利要求4所述的基于神经网络的司法领域关系抽取系统,其特征在于,语料集获取模块中,获取司法领域非结构化文本数据是指从中国裁判文书网爬取非结构化文本数据集,包含刑事判决书和刑事裁定书两种文本。
6.根据权利要求4所述的基于神经网络的司法领域关系抽取系统,其特征在于,语料集向量由Word Embeddings和Position Embeddings拼接而成,Word Embeddings生成每条语料集的词向量,维度记为dw,Position Embeddings生成每条语料集的位置向量,维度记为dp;特征集向量为语料集每个词的词向量*(1+TF-IDF词频权重),维度记为dti,特征集向量的向量序列表示为
语料集的最终向量序列表示为w={w1,w2,...,wm};
其中,wi=Rd,d=dw+dp*2+dti。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国地质大学(武汉),未经中国地质大学(武汉)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910145396.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:类型确定方法、装置、设备和介质
- 下一篇:一种文本特征提取方法及系统