[发明专利]一种基于信息熵的食品安全事件聚类分析方法有效
申请号: | 201811523039.6 | 申请日: | 2018-12-13 |
公开(公告)号: | CN109657123B | 公开(公告)日: | 2022-10-11 |
发明(设计)人: | 辜萍萍;董敏辉 | 申请(专利权)人: | 厦门大学嘉庚学院 |
主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F16/955;G06Q30/00;G06Q50/26 |
代理公司: | 福州元创专利商标代理有限公司 35100 | 代理人: | 蔡学俊 |
地址: | 363105 *** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 信息 食品安全 事件 聚类分析 方法 | ||
1.一种基于信息熵的食品安全事件分析方法,其特征在于,包括以下步骤:
步骤S1:采集食品安全网站上的数据,并清洗整理生成待分析食品安全事件数据集;
步骤S2:构建改进聚类分析算法;
步骤S3:根据得到的改进聚类分析算法对待分析食品安全事件数据集进行分析,得到聚类结果;
所述改进聚类分析算法具体为:
步骤S21:设定输入目标的初始聚类中心数k,k≥1;
步骤S22:根据下式计算属性总集合A的信息熵E(A)
E(A)表示整体的信息熵,即所有的属性将数据集U划分的情况,其中,A将数据集U划分成了一个新的集合C,C={A1,A2,A3,……,Ap},对于C中的任意一个元素Ai表示数据集U中与Bi的属性值完全相等的数据集子集,所以且|A1|+|A2|+|A3|+……+|Ap|=|U|,|Ai|/|U|即是表示属性值与Ai完全相等的元素在数据集U中出现的概率;
步骤S23:计算属性总集合中缺少每个属性后的信息熵E(A-{a})
其中E(A-{a})表示去掉a属性后,剩余的属性对U的划分情况;
步骤S24:根据步骤S21和步骤S22获取的结果,计算每个属性的权值Sig(a),
若属性a对数据集U毫无影响则E(A)=E(A-{a}),说明a对数据集U的划分没有起到作用,即Sig(a)=0,说明a的属性重要性为0;反之若属性a对数据集U影响越大,则少了a属性的E(A-{a})与E(A)就相差越大;
步骤S25:遍历数据集U计算每个属性的平均密度:
其中,Densa(x)表示对于A中的任意元素a,
对象x在属性a上的平均密度计算方法如下:
步骤S26:对于数据集U中的每一个对象x,计算其加权密度WDens(x):
步骤S27:选取所有对象中加权密度WDens(x)最大的一个,将其设为第一个初始聚类中心,加入聚类中心集合Z;
步骤S28:遍历数据集U中已经选取为聚类中心以外的每个对象x,保存对象的加权密度WDens(x);
步骤S29:采用0-1相异度度量方法计算对象x与每个已分配好的初始聚类中心的距离之和d(x):
其中,xi,al与xj,al分别表示数据集中xi和xj两个对象在对应属性上的属性值,如果相等则当前属性间的距离赋值为0,如果不相等则赋值为1,累加所有属性的属性间距离,最后得出两个对象之间的距离,即差异度;
步骤S210:对每一个对象x,计算m(x)=WDens(x)+d(x);
步骤S211:比较所有的m(x),选取m(x)最大的那个对象作为新的初始聚类中心,加入聚类中心集合Z;
步骤S212:判断聚类中心数是否达到k个,即|Z|k是否成立,若成立跳转到步骤S213,若不成立则跳转到步骤S28,继续选择新的初始聚类中心;
步骤S213:根据步骤S24得到的Sig(a)计算每个属性的权值weight(a):
步骤S214:用改进的相异度度量方法计算相异度矩阵:
wd(xi,xj)=∑a∈Aweight(a)×δa(xi,xj)
步骤S215:计算隶属度矩阵Wl×n
其中,k表示当前数据集划分为k个簇,即存在k个聚类中心,Zi表示当前第i个类的聚类中心,Zh表示其它类的聚类中心;
步骤S216:根据隶属度更新聚类中心集合Z,采用属性众数作为聚类中心的新的属性值;即遍历每一个类簇,计算类簇里每一个属性的每一个属性值的总数,用总数最高的属性值替换当前该类簇的聚类中心;
步骤S217:回到步骤S215重新计算隶属度,根据每个样本的最大隶属度重新归类;如果隶属度没有变化,那么k类的聚类已经完成,跳转至步骤S218;
步骤S218:根据当前隶属度矩阵与相异度矩阵计算聚类准则函数,聚类准则函数为:
其中,n是聚类对象的数量;Zl=[zl1,zl2,...,zlm]代表聚类l的向量,即聚类中心;wi,l∈[0,1]是隶属度矩阵Wl×n的一个元素,它表示对象Xi划分到聚类l中的隶属度,wd是改进后的相异度,α>1是加权指数;
步骤S219:聚类数量k递增1,并回到步骤S21,直到为止,聚类准则函数最小的那一轮聚类为最后的聚类结果。
2.根据权利要求1所述的一种基于信息熵的食品安全事件分析方法,其特征在于:所述步骤S1具体为:
步骤S11:搭建页面抓取框架Scrapy,设置目标网站URL,设置食品安全事件信息起始URL;
步骤S12:创建爬虫文件,并写入将要读取的URL和爬行域名范围;
步骤S13:发起http请求,获取目标网站网页信息,页面抓取框架把目标网站URL封装成一个请求传给下载器,下载器把资源下载下来,并封装成应答包,爬虫再解析Response;
步骤S14:爬虫根据url_token提取目标网站网页信息,并保存在MongoDB中,并将数据输出在csv中;
步骤S15:若页面抓取框架中的调度器传来下一个URL,爬虫会接着处理响应请求并返回项目,再将新的数据请求发送给引擎,即返回步骤S12,否则,信息爬取完成,步骤结束。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于厦门大学嘉庚学院,未经厦门大学嘉庚学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811523039.6/1.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置