[发明专利]基于大数据的缉私案件情报抽取方法在审
申请号: | 202010263448.8 | 申请日: | 2020-04-07 |
公开(公告)号: | CN111476027A | 公开(公告)日: | 2020-07-31 |
发明(设计)人: | 邱明月;吴育宝;王新猛 | 申请(专利权)人: | 南京森林警察学院 |
主分类号: | G06F40/284 | 分类号: | G06F40/284;G06N3/04;G06N3/08;G06Q50/26 |
代理公司: | 江苏吾索律师事务所 32337 | 代理人: | 曾昭昱 |
地址: | 210023 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 数据 缉私 案件 情报 抽取 方法 | ||
1.基于大数据的缉私案件情报抽取方法,其特征在于包含以下步骤:
S1:基于缉私案件信息,构建缉私案件的情报要素表达模型;
S2:通过自然语言处理技术和深度学习算法模型,实现各类缉私情报要素的自动抽取;
S3:结合单据链、资金链和货物链证据链条,实现大数据环境下智能化的缉私情报抽取效果验证。
2.根据权利要求1所述的基于大数据的缉私案件情报抽取方法,其特征在于步骤S1具体包括以下步骤:
S11:缉私案件的要素表达
基于缉私案件的案件特征和数据来源,构建缉私案件的要素表达模型;
S12:字符向量化
参照上述要素表达模型的组成及其关系,对缉私案事件文本进行情报的要素标注,得到已标注数据集,基于该已标注数据集及未标注的案件文本语料,利用产生词向量的相关模型工具对分好词的文本进行无监督训练学习。
3.根据权利要求2所述的基于大数据的缉私案件情报抽取方法,其特征在于所述产生词向量的相关模型工具为word2vec。
4.根据权利要求1所述的基于大数据的缉私案件情报抽取方法,其特征在于上述步骤S2中所述深度学习算法模型的建模流程具体包括以下步骤:
S21:扩张卷积
将卷积神经网络层应用到序列标注问题,对序列向量进行卷积运算,对输入序列做仿射变换,对于其子序列向量xt的输出,其定义为
(1)式中:r为卷积半径;为向量链接运算,扩张卷积在普通卷积的滤波器上增加了扩张宽度,当有输入序列向量时,扩张卷积会自动跳过扩张宽度中间所有的输入数据,使得有效输入变得更宽,可以获得更多的输入数据,扩张卷积用于序列标注问题时,子序列向量xt的输出定义为
(2)式中:σ为扩张宽度,当σ=1时,扩张卷积同普通的卷积操作一样,而当σ1时,扩张宽度使得感受野范围更大,由此带来的空洞问题,通过过滤器的平移可以使之加入到卷积运算之中;
S22:迭代扩张卷积神经网络
利用迭代扩张卷积神经网络预防通过简单的层数叠加使得输出结果存在过度拟合的风险,迭代扩张卷积神经网络多次应用相同的扩张卷积块,每个迭代将最后一层的输出结果作为输入,每次迭代都将重复使用相同的参数;
S23:条件随机场
条件随机场定义了一系列的二值特征函数,包含转移特征函数和状态特征函数,前者考虑输出变量间的依赖关系,后者考虑输入特征的影响,将所有特征函数加权求和得到每个标注类别的评分,运用规范化因子得到各个标注类别的概率,概率最大的即为当前的标注类别,在观测序列X=(x1,x2,…xn)为x的条件下,线性链条件随机场P=(Y|X)的预测序列Y=(y1,y2,…yn)取值为y的条件概率的简化表现形式为
(3)式中:Z(x)为归一化因子;exp为指数函数;wk代表特征函数fk(y,x)对应的权重;K代表定义的特征函数个数;
S24:迭代扩张卷积神经网络结合条件随机场
将预处理得到的字向量、词向量作为模型的输入,输入的向量经过普通卷积层后输入迭代扩张卷积网络,迭代的块共享一组参数,最终网络层为每个序列输出每个分类的得分,将每个得分序列作为CRF层的输入,CRF层利用考虑了输出变量依赖关系的转移特征函数对每个标注序列进行评判,进一步优化迭代扩张卷积得出的分类结果。
5.根据权利要求4所述的基于大数据的缉私案件情报抽取方法,其特征在于在步骤S24的整个过程中,首先在预处理阶段保留命名实体不被分词拆分,让每个实体作为一个独立词向量输入模型,其次选用迭代扩张卷积神经网络提取鲁棒性更高的特征,然后用dropout随机丢弃网络的一些连接以解决网络层反复迭代可能导致的过拟合,最后用条件随机场对网络层得出的结果进行进一步修正。
6.根据权利要求1所述的基于大数据的缉私案件情报抽取方法,其特征在于上述步骤S3中,所述缉私情报抽取效果验证是结合情报评估的对情报的可靠性、有效性、时效性、重复性以及紧急程度这五个维度进行综合评估验证。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京森林警察学院,未经南京森林警察学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010263448.8/1.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置