[发明专利]一种面向特定区域的事件发生风险预测并预警方法有效
申请号: | 201210501874.6 | 申请日: | 2012-11-29 |
公开(公告)号: | CN103854064B | 公开(公告)日: | 2017-01-25 |
发明(设计)人: | 杨风雷;黎建辉 | 申请(专利权)人: | 中国科学院计算机网络信息中心 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京君尚知识产权代理事务所(普通合伙)11200 | 代理人: | 余长江 |
地址: | 100190 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 特定 区域 事件 发生 风险 预测 预警 方法 | ||
1.一种面向特定区域的事件发生风险预测并预警方法,其步骤为:
1)建立一食品安全事件信息本体,并对本体中的每个实例分别建立一附加表;
2)对爬取的网页信息进行过滤,得到与食品安全事件相关的非垃圾网页信息;
3)对过滤后的网页信息中表示处所的词语进行解析,得到准确的地名词语;基于所述食品安全事件信息本体中区域维度的本体实例名称、属性采用模式匹配方法对解析后的网页信息进行处理,将网页信息归入匹配成功的区域;
4)针对每一设定的对象类别,利用回归分析模型对网页信息进行处理,判断每一网页相关的对象类别;
5)根据步骤3)、4)确定出的网页所属区域及其相关的对象类别,得到设定区域、对象的事件的网页信息集合,建立事件的特征参数并定期计算特征参数值,如果某事件的特征参数值持续设定时间超过设定阈值则对该事件进行预警;
6)如果某区域出现一设定对象事件预警,基于矩阵分析和回归预测模型定期计算目标区域发生该设定事件的可能性以及可能的发生时间,并进行不同级别的风险预警。
2.如权利要求1所述的方法,其特征在于对网页信息中表示处所的词语进行解析的方法为:
1)对于地名代词,用一判断模型判断地名代词与其前面出现的地理名词之间是否存在指代关系,如果存在,则将地名代词替换为相应的地理名词;
2)基于标准词语和非标准词语对照表对词语中非标准地名词语进行解析,将非标准词语替换为标准词语;
3)基于所述食品安全事件信息本体中的区域维度,对词语中的相对位置区域信息进行解析,得到准确的地名词语;
其中,所述判断模型的建立方法为:将包含地名代词的网页信息形成一样本集合,并对样本集合中地名代词和其之前的地理名词之间的指代关系进行标注,作为类别变量;建立地名代词和其之前的地理名词之间关系的特征向量:然后选择机器学习方法基于所述样本集合、类别变量和特征向量建立地理名词和地名代词之间是否存在指代关系的判断模型;
其中,判断地名代词与其前面出现的地理名词之间是否存在指代关系的方法为:计算地名代词和地理名词之间关系的特征向量值,利用所述判断模型对所述特征向量值进行判断,确定地名代词和地理名词之间的指代关系是否存在。
3.如权利要求1或2所述的方法,其特征在于所述食品安全事件信息本体包括对象、区域、时间、结果、关联者五个纬度;所述附加表的内容包括同义词、反义词、别名词三个纬度;其中,针对区域维度,附件表的内容还包括电话区号、邮政编码、简称、名胜、邻近域、所在方位六个纬度。
4.如权利要求3所述的方法,其特征在于步骤3)对过滤后的网页信息中表示处所的词语进行解析之前采用分词器对信息标题和正文内容进行分词,并记录分词所得词语相对信息标题和正文内容构成的文本开始、结束的相对位置、所属句子、相对句子开始和结束的相对位置。
5.如权利要求4所述的方法,其特征在于首先建立一可疑地名词表,记录可用作其他名称的地名,然后用所述可疑地名词表对步骤3)分词所得词语进行匹配,滤除匹配的词语;其中,如果匹配的词语具有代表地名的后缀,则保留该词语。
6.如权利要求2所述的方法,其特征在于对网页信息中表示处所的地名代词进行解析的方法为:
61)建立一代词解析的长度为L的滑动窗口;
62)选择地名代词前L个词语内是否存在地理名词,如果存在,则采用判断模型进行判断,如果存在指代关系,则根据指代关系确定代词对应的地理名词,解析结束,否则进行步骤63);
63)选择地名代词前2L个词语内是否存在地理名词,如果存在,则采用判断模型进行判断,如果存在指代关系,则根据指代关系确定代词对应的地理名词,解析结束,否则进行步骤64);
64)根据元数据提取过程中得到的信息来源或网站所在地采用抽取或者替换的方法确定地名代词的指代地名。
7.如权利要求2或6所述的方法,其特征在于所述判断模型中的样本特征向量的分量包括:地理名词后缀长度、地理名词和地名代词之间的距离、地理名词距离文本开始的相对距离、地名代词距离文本开始的相对距离、地理名词距离句子开始的相对距离、地名代词距离句子开始的相对距离、地理名词距离句子结束的相对距离、地名代词距离句子结束的相对距离。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院计算机网络信息中心,未经中国科学院计算机网络信息中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210501874.6/1.html,转载请声明来源钻瓜专利网。