[发明专利]网络言论数据疑似犯罪度计算方法有效
申请号: | 201510442984.3 | 申请日: | 2015-07-26 |
公开(公告)号: | CN105138570B | 公开(公告)日: | 2019-02-05 |
发明(设计)人: | 王世刚;胡云鹏;赵文婷;卢洋;赵岩 | 申请(专利权)人: | 吉林大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/33 |
代理公司: | 长春吉大专利代理有限责任公司 22201 | 代理人: | 邵铭康;朱世林 |
地址: | 130012 吉*** | 国省代码: | 吉林;22 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 网络言论数据疑似犯罪度计算方法属智能安防技术领域,本发明提出了网络言论疑似犯罪度这一概念,定义它为社交网络上某ID通过其言论表现出来的犯罪可能性,以犯罪心理学为理论依据,总结出犯罪心理表现出的言论特征,提出了网络言论犯罪度的需求因素、情绪因素和准备因素影响模型;以文本分析技术手段、运用朴素贝叶斯分类器对需求因素进行判断,利用情感词典对情绪因素进行判断,构建了犯罪敏感词词典并结合机器学习的方法对准备因素进行判断,建立了网络言论疑似犯罪度理论框架和数学模型;本发明能将预警提前到犯罪心理形成和犯罪准备阶段,运用到实际网络中可全程自动分析预测大量数据,不需人为干预,可将安防系统智能化提升到更高层次。 | ||
搜索关键词: | 网络 言论 数据 疑似 犯罪 计算方法 | ||
【主权项】:
1.一种网络言论数据疑似犯罪度计算方法,其特征在于包括下列步骤:1.1定义网络言论疑似犯罪度:社交网络上某ID通过其言论表现出来的犯罪可能性大小;1.2网络言论疑似犯罪度的影响因素判断,具体包括下列步骤:1.2.1需求因素判断:通过朴素贝叶斯分类器对网络言论是否有需求得不到满足语义倾向进行判断,具体包括下列步骤:1.2.1.1在社交网络上收集初始言论样本,将其中的言论分为有需求得不到满足之意的言论,标注为1;没有需求得不到满足之意的言论,标注为0;1.2.1.2预处理:将步骤1.2.1.1中收集的初始言论样本去除标点和停顿词,分词;1.2.1.3将预处理后的言论样本中标注为1和标注为0的言论中70%的言论归类为待用训练言论样本;剩下的30%的言论归类为待用测试言论样本;1.2.1.4将步骤1.2.1.3中的待用训练言论样本放到朴素贝叶斯分类器中训练得到预测函数为:其中:vNB表示朴素贝叶斯分类器输出的目标值;集合V是标注集合{1,0};P(vj)代表不同标注的数据量占总数据量的比例;ai表示测试样本中不同位置的词语;用预测函数预测待用测试言论样本的类型,与标注类型比较,得出分类器预测待用测试言论样本的正确率;1.2.2情绪因素判断:采用基于台湾大学情感词库NTUSD的方法,判断网络言论表现出的情绪是否消极,消极情绪是否累积与叠加,具体包括下列步骤:1.2.2.1预处理:对每条网络言论按标点分句、分词、去除停顿词;1.2.2.2情感极性判断:(1)定义每条言论的总情感值为emotionValue,简称eV;(2)定义一条言论中一句话的情感值为sonEmotionValue,简称sV;(3)词语匹配a.匹配情感词:有一个消极词汇sV减1,有一个积极词汇sV加1,中性词sV值不变;b.匹配否定词:有奇数个否定词sV正负号取反,有偶数个否定词sV符号不变;c.匹配程度词:有一个程度词,sV符号不变,绝对值加1;(4)计算eV,每条言论的总情感值eV等于言论中m句话的sV求和;定义n为消极言论的数量,如果eV<0,n加1;(5)重复步骤1.2.2.2的(1)、(2)、(3)、(4),判断所有N条言论的情感极性;1.2.2.3计算消极强度IoN其中:IoN表示消极强度,衡量消极言论的积累程度,并为总的网络言论犯罪度做得分修正;N为监测最近言论的数量;1.2.3准备因素判断:综合运用机器学习和情感词典的方法,分析言论中是否有为犯罪做准备的语义倾向,具体包括下列步骤:1.2.3.1构建犯罪敏感词词典:通过网络敏感词词典,筛选出犯罪敏感词,再通过犯罪类书籍和相关资料扩充犯罪敏感词词典;1.2.3.2根据步骤1.2.3.1构建的犯罪敏感词词典,对检测出的网络言论中含有犯罪敏感词的言论进行真阳性检验,检测出含有犯罪敏感词的言论中确实有为犯罪做准备语义倾向的言论;真阳性检验采用机器学习的方法,采集训练数据,将含有犯罪敏感词的言论分为真阳性和假阳性两组,分别标注为1和0,用步骤1.2.1中的朴素贝叶斯分类器,生成预测函数,实现真阳性检验;1.3建立网络言论疑似犯罪度计算模型,具体包括下列步骤:1.3.1构建网络言论犯罪度向量,用表示:其中:c1,c2...cN为每条言论的类型数值或者类型坐标;有消极语义,数值为1;有需求得不到满足语义,数值为2;有为犯罪做准备语义,数值为3;无以上类型语义,数值为0;犯罪度向量用队列存储;通过步骤1.2中需求因素、情绪因素和准备因素的判断方法,识别网络上某ID主页中最近N条言论类型,生成犯罪度向量,当言论更新时将最新言论的类型插入队尾,并删除队头;1.3.2网络言论疑似犯罪度(Crime Degree of Speech):通过步骤其中:为向量的1范数,考虑到不是以需求为诱因,以心情为主导,而是行为人的自我实现需要本身就是反社会的,并会采取攻击行为来满足自身需求的情况,要对消极强度IoN做修正,将其中n改为犯罪度向量中坐标非0值的个数;1.3.3通过网络爬虫程序自动抓取网络数据,通过步骤1.3.2中数学表达式(3),计算出社交网络上各ID的网络言论疑似犯罪度,对CoS规定不同的阈值,划分不同的警戒线,分类显示。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于吉林大学,未经吉林大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201510442984.3/,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置