[发明专利]一种网页信息相关地域的识别方法有效

专利信息
申请号: 201210500929.1 申请日: 2012-11-29
公开(公告)号: CN103853738B 公开(公告)日: 2017-06-27
发明(设计)人: 杨风雷;黎建辉;崔建业;李晓东;周园春;归文胜;汪海燕;杨俊峰 申请(专利权)人: 中国科学院计算机网络信息中心
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 北京君尚知识产权代理事务所(普通合伙)11200 代理人: 余长江
地址: 100190 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种网页信息相关地域的识别方法。本方法为1)建立一区域信息本体,2)提取所爬取的网页信息的元数据信息以及正文内容,并对提取的信息标题和正文内容进行分词;3)对词语中表示处所的地名代词进行解析,判断地名代词与其前面出现的地理名词之间是否存在指代关系,如果存在,则将地名代词替换为相应的地理名词;4)对经过分词所得词语中非标准地名词语进行解析,将非标准词语替换为标准词语;5)基于区域信息本体对相对位置区域信息进行解析,得到准确的地名词语;6)基于区域信息本体,对解析后的网页信息进行判断处理,将网页信息归入匹配成功的区域。本发明大大提高了网页信息相关区域识别的准确度。
搜索关键词: 一种 网页 信息 相关 地域 识别 方法
【主权项】:
一种网页信息相关地域的识别方法,其步骤为:1)按照行政区划建立一区域信息本体,并对本体中的每个实例分别建立一附加表;2)提取所爬取的网页信息的元数据信息以及正文内容,并采用分词器对元数据信息中的信息标题和正文内容进行分词;3)对经过分词所得词语中表示处所的代词进行解析,用一判断模型判断代词与其前面出现的地理名词之间是否存在指代关系,如果存在,则将代词替换为相应的地理名词;4)基于标准词语和非标准词语对照表对经过分词所得词语中非标准地名词语进行解析,将非标准词语替换为标准词语;5)基于所述区域信息本体实例及其附加表,对经过分词所得词语中的相对位置区域信息进行解析,得到准确的地名词语;6)基于区域信息本体中的本体实例名称、属性采用模式匹配方法对步骤3)、4)、5)解析后的网页信息进行处理,将网页信息归入匹配成功的区域;其中,所述判断模型的建立方法为:将包含代词的网页信息形成一样本集合,并对样本集合中代词和其之前的地理名词之间的指代关系进行标注,作为类别变量;建立代词和其之前的地理名词之间关系的特征向量;然后选择机器学习方法基于所述样本集合、类别变量和特征向量建立地理名词和代词之间是否存在指代关系的判断模型;其中,判断代词与其前面出现的地理名词之间是否存在指代关系的方法为:计算代词和地理名词之间关系的特征向量值,利用所述判断模型对所述特征向量值进行判断,确定代词和地理名词之间的指代关系是否存在;其中,对经过分词所得词语中表示处所的代词进行解析的方法为:31)建立一代词解析的长度为L的滑动窗口;32)选择代词前L个词语内是否存在地理名词,如果存在,则采用判断模型进行判断,如果存在指代关系,则根据指代关系确定代词对应的地理名词,解析结束,否则进行步骤33);33)选择代词前2L个词语内是否存在地理名词,如果存在,则采用判断模型进行判断,如果存在指代关系,则根据指代关系确定代词对应的地理名词,解析结束,否则进行步骤34);34)根据元数据提取过程中得到的信息来源或网站所在地采用抽取或者替换的方法确定代词的指代地名。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院计算机网络信息中心,未经中国科学院计算机网络信息中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201210500929.1/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top