[发明专利]一种网页信息相关地域的识别方法有效
申请号: | 201210500929.1 | 申请日: | 2012-11-29 |
公开(公告)号: | CN103853738B | 公开(公告)日: | 2017-06-27 |
发明(设计)人: | 杨风雷;黎建辉;崔建业;李晓东;周园春;归文胜;汪海燕;杨俊峰 | 申请(专利权)人: | 中国科学院计算机网络信息中心 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京君尚知识产权代理事务所(普通合伙)11200 | 代理人: | 余长江 |
地址: | 100190 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 网页 信息 相关 地域 识别 方法 | ||
技术领域
本发明属于信息技术领域,尤其涉及一种对网页中信息相关联的地域进行判断确定的方法,主要应用于互联网信息监控、信息预警、移动搜索等领域中。
背景技术
近年来,食品安全事件诸如瘦肉精、染色馒头、塑化剂、毒黄瓜等频频发生,这既造成了极坏的社会影响,也带来了大量的经济损失。为了避免或最大限度的降低这些食品安全事件所带来的危害,基于事件的风险预警技术开始得到了极大关注。为进行基于事件的风险预警,这就需要提前发现这些事件的信息。
随着Internet的迅猛发展,互联网网民数量越来越庞大,互联网逐渐成为网民发布信息、获取信息和传递信息的主要载体,而且通过人、组织等之间的交互形成了一个和现实社会有一定的对应、关联关系的虚拟社会。它已经变成了世界上规模最大的公共数据源,而且其规模还正在不停的增长着。此状况下,利用互联网自身的特点,建立起完善的社会信息反馈网络,提前发现各种可能带来危机的“未然”因素,为食品安全事件的应急管理提供及时、准确、全面的信息就显得势在必行和有着非常重要的意义。
为利用互联网上的信息进行食品安全事件的风险预警,需要经过一定的过程得到事件相关的信息。其中,获取互联网信息中事件的相关区域是一个非常重要的工作—以此为基础可以确定事件的发生区域-这是食品安全事件预警的基础,这就需要对互联网网页信息中的内容等进行提取、分析以确定食品安全事件信息相关联的区域。
一般而言,确定网页信息相关联的区域(地理位置),传统的做法需要经过地名识别、消歧、地理区域确定三个环节。其中地名识别的主要作用在于识别出网页信息中所包含的所有地名,为完成地名的识别,一般采用基于地名词典的方法或者自然语言处理中词性标注后命名实体识别的方法;消歧(分辨)的主要作用在于为一个可能存在多种解释的地名确定一个准确的地理位置,为分辨其准确的地理位置,通常采用的方法是建立、计算衡量其流行度的指标数值确定;地理区域确定的主要作用在于确定网页信息所覆盖(关联)的地理区域。尽管采用这些方法在一定程度上能够识别网页信息相关的地理区域,但由于以下情况:不同层次范围内地名的相同、同一个名词可能意味着不同含义(比如地名或人名)、信息描述中往往存在相对位置的叙述方法(比如北京的南方)、信息中存在很多指代的说法、同一信息中可能涉及到多个不同的地名(尤其是不同类别的地名)、以及信息中缩写和非标准语言等情况的存在,同时也由于当前自然语言处理工作的准确度相对较低,使得网页信息的相关地域识别准确度往往比较低。
发明内容
为解决上述的问题,本发明的目的在于提供一种采取特定步骤对网页信息的内容进行分析,从而确定网页信息相关地理区域的方法,从食品安全事件预警的需求出发,这里所指地理区域主要指国家、省级的区域,其他类别的区域可采用类似的方法进行粒度伸缩。方法中借鉴智能系统思路,形成的步骤如下所述。
1、建立区域信息本体
为满足食品安全事件信息要素提取的需要,主要按照规范的行政区划建立区域信息本体;同时,针对本体中的每个实例,分别建立了电话区号、邮政编码、简称、名胜、邻近域、所在方位六个维度的附加表。
2、网页信息预处理
对选定的信息源,采用互联网信息爬取系统对信息源中的网页信息进行爬取,提取其标题、来源、作者、发布时间、网站所在地等元数据及正文内容信息并进行保存;之后对网页信息标题、正文内容,采用分词器对其进行分词,并对可能不是地名的词语予以排除。
3、地名代词解析
对网页标题信息、正文信息中可能存在一些诸如本省、本市等无法直接表明确切地理位置的代词词语进行解析。过程中根据地名代词前2L个词语内(不超出整个句子)是否存在合理的地理名词分别采用判断模型进行识别判断(如果指代关系不成立,也将据提取的信息来源等确定地名代词)、或者根据元数据提取过程中得到的信息来源等确定地名代词。
4、非标准词解析
对网页信息标题、正文信息中可能存在的一些采用非标准语言形式的地名词语诸如中文文本中出现beijing、bj等进行解析。过程中主要基于预先建立的标准词语和非标准词语对照表通过检索后进行替换的方式完成解析。
5、相对位置解析
对网页标题、正文信息中可能存在的一些使用了相对位置表达方式的地名词语诸如中国西南部省份等进行解析。过程中主要基于步骤1中建立的区域信息本体实例及其附加表,对这些相对位置区域信息进行查询和解析,得到准确的地名词语。
6、地域确定
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院计算机网络信息中心,未经中国科学院计算机网络信息中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210500929.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:抗潮解速溶菊粉及其制造工艺
- 下一篇:一种刺玫果益气生精火锅调料及生产方法
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置