[发明专利]一种基于多源实例迁移学习的恐怖行为预测方法在审
申请号: | 201510246797.8 | 申请日: | 2015-05-14 |
公开(公告)号: | CN104899430A | 公开(公告)日: | 2015-09-09 |
发明(设计)人: | 薛安荣;陈泉浈 | 申请(专利权)人: | 江苏大学 |
主分类号: | G06F19/00 | 分类号: | G06F19/00 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 212013 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 实例 迁移 学习 恐怖 行为 预测 方法 | ||
技术领域
本发明涉及计算机数据挖掘与应用领域,具体而言涉及一种基于多源实例迁移学习预测恐怖行为的预测算法。
背景技术
2001年9月11日,美国纽约、华盛顿遭受恐怖分子袭击,造成3100多人死亡。此次事件被认为是自珍珠港事件后美国遭受到的最严重的恐怖袭击事件,标志着恐怖主义组织已经成为对国际安全造成重大影响的一支非国家力量。如何利用现有的信息预测将会发生的恐怖行为,成为一个重要的研究方向。
恐怖行为预测是预测知识挖掘的典型应用,它利用数据挖掘和机器学习的相关技术,对过去、现在恐怖组织策划实施的恐怖行为的情况进行科学的统计分析,然后预测其发展趋势。恐怖预测不是证实过去,也不是说明现实,而是从显性的恐怖组织与恐怖袭击事件的数据入手,寻找出某些隐性的有用信息。从恐怖袭击事件数据中可能隐藏的特征、行为或者其他的因素来提炼出相关的模式,以此来提供线索,预测恐怖主义组织的发展趋势。其目的在于为采取有效的预防措施提供决策支持。
早期对恐怖预测的研究主要是针对当局的统计数据对恐怖行为进行长期预测,但由于当时的数据信息只考虑到恐怖事件发生的时间、地点、袭击目标等因素,而没有考虑导致恐怖事件的社会学等深层次的因素,因此单纯的从数据驱动并不能有效对其进行预测。而且传统的分析方法过于依赖社会学专家的分析,对于大数据量而言不具备可操作性。
目前,对恐怖预测的研究开始以跨学科(计算机数据挖掘技术与社会学,犯罪学等)为基础,统计的信息更为详细,不仅包括传统恐怖活动发生的信息,而且还从经济矛盾、政治矛盾(如民族矛盾、宗教价值观差异以及种族政策的失误)、文化矛盾等方面搜集信息和数据挖掘,以便通过对这些数据的分析为当局提供更有效的预测分析。因此,通过分析恐怖组织的背景因素对其行为的影响成为研究的热点。
在当前的研究中,选取的研究对象往往是存在时间久且样本量较为丰富的恐怖组织,但随着恐怖主义的全球化,近年来不断有新的恐怖组织产生。这类组织由于产生时间短导致收集到的数据极为稀少,使得对于这类组织的预测缺乏依据,预测精度低。然而,恐怖组织间往往是相关的,他们存在和发展的过程中有着或多或少的共性。因此如何能够有效的利用组织间的共性,来帮助新产生组织的进行预测,是当前恐怖行为预测需要解决的一个刻不容缓的问题。
发明内容
针对现有技术中存在的问题,本发明旨在提出一种基于多源实例迁移学习的恐怖行为预测方法,通过在组织间进行实例迁移学习,利用源组织中的有用的知识来帮助目标组织进行行为预测,解决了新产生组织由于样本稀少使得预测缺乏依据所造成的预测精度低的问题,有效的提高了预测算法的精确度。
为达成上述目的,本发明技术方案为:
一种基于多源实例迁移学习的恐怖行为预测方法,包括以下步骤:
步骤1,背景数据的预处理:背景数据由背景知识和行为知识构成,标记为向量对(CS,AS),其中CS=(C1,C2,...,CM)表示背景数据中的背景属性,AS=(A1,A2,...,AN)表示背景数据中涉及的行为属性,为了在组织间实现迁移,对背景数据进行预处理,将多个行为属性合并为一个行为属性,形成(CS,A)的数据集,其中A=A1||A2||...||AN为合并的行为属性;
步骤2,训练候选预测模型:通过步骤1得到形如(CS,A)的源组织和目标组织样本集,对多个源组织样本集分别同目标组织样本集取并集,在每个并集上采用SVM进行迭代的训练,每次迭代训练中都对错分样本进行权重修正,进而得到候选预测模型集;
步骤3,集成最终预测模型:过滤步骤2得到的候选预测模型集中对于目标数据集的误差超过阈值的部分,剩余的模型以加权投票的方式实现行为预测。
进一步,在步骤2中,训练候选预测模型具体包括以下步骤:
步骤2.1,初始化源组织和目标组织的权重向量其中为第k个源组织样本权重向量,为目标组织的样本权重向量,为了避免权重不匹配问题,对目标组织样本赋予较高的权重;
步骤2.2,对于第一个源组织样本集同目标组织样本集DT取并集在上进行迭代的训练得到第一个源组织的候选预测模型;
步骤2.3,对所有源组织完成了迭代的训练得到候选预测模型集G。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏大学,未经江苏大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510246797.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:新型贴片头机构
- 下一篇:一种板料加工中工位转换用定位移动夹具
- 同类专利
- 专利分类
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用