[发明专利]一种网页信息相关地域的识别方法有效

专利信息
申请号: 201210500929.1 申请日: 2012-11-29
公开(公告)号: CN103853738B 公开(公告)日: 2017-06-27
发明(设计)人: 杨风雷;黎建辉;崔建业;李晓东;周园春;归文胜;汪海燕;杨俊峰 申请(专利权)人: 中国科学院计算机网络信息中心
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 北京君尚知识产权代理事务所(普通合伙)11200 代理人: 余长江
地址: 100190 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 网页 信息 相关 地域 识别 方法
【权利要求书】:

1.一种网页信息相关地域的识别方法,其步骤为:

1)按照行政区划建立一区域信息本体,并对本体中的每个实例分别建立一附加表;

2)提取所爬取的网页信息的元数据信息以及正文内容,并采用分词器对元数据信息中的信息标题和正文内容进行分词;

3)对经过分词所得词语中表示处所的代词进行解析,用一判断模型判断代词与其前面出现的地理名词之间是否存在指代关系,如果存在,则将代词替换为相应的地理名词;

4)基于标准词语和非标准词语对照表对经过分词所得词语中非标准地名词语进行解析,将非标准词语替换为标准词语;

5)基于所述区域信息本体实例及其附加表,对经过分词所得词语中的相对位置区域信息进行解析,得到准确的地名词语;

6)基于区域信息本体中的本体实例名称、属性采用模式匹配方法对步骤3)、4)、5)解析后的网页信息进行处理,将网页信息归入匹配成功的区域;

其中,所述判断模型的建立方法为:将包含代词的网页信息形成一样本集合,并对样本集合中代词和其之前的地理名词之间的指代关系进行标注,作为类别变量;建立代词和其之前的地理名词之间关系的特征向量;然后选择机器学习方法基于所述样本集合、类别变量和特征向量建立地理名词和代词之间是否存在指代关系的判断模型;

其中,判断代词与其前面出现的地理名词之间是否存在指代关系的方法为:计算代词和地理名词之间关系的特征向量值,利用所述判断模型对所述特征向量值进行判断,确定代词和地理名词之间的指代关系是否存在;

其中,对经过分词所得词语中表示处所的代词进行解析的方法为:

31)建立一代词解析的长度为L的滑动窗口;32)选择代词前L个词语内是否存在地理名词,如果存在,则采用判断模型进行判断,如果存在指代关系,则根据指代关系确定代词对应的地理名词,解析结束,否则进行步骤33);

33)选择代词前2L个词语内是否存在地理名词,如果存在,则采用判断模型进行判断,如果存在指代关系,则根据指代关系确定代词对应的地理名词,解析结束,否则进行步骤34);

34)根据元数据提取过程中得到的信息来源或网站所在地采用抽取或者替换的方法确定代词的指代地名。

2.如权利要求1所述的识别方法,其特征在于所述元数据信息包括:网页的标题、来源、作者、发布时间、网站所在地;所述附加表的内容包括:电话区号、邮政编码、简称、名胜、邻近域、所在方位六个维度。

3.如权利要求2所述的识别方法,其特征在于步骤2)中采用分词器对提取的信息标题和正文内容进行分词的方法为:采用分词器对提取的信息标题和正文内容进行的分词,并记录分词所得词语相对信息标题和正文内容构成的文本开始、结束的相对位置、所属句子、相对句子开始和结束的相对位置。

4.如权利要求1或2或3所述的识别方法,其特征在于首先建立一可疑地名词表,记录可用作其他名称的地名,然后用所述可疑地名词表对步骤2)分词所得词语进行匹配,滤除匹配的词语;其中,如果匹配的词语具有代表地名的后缀,则保留该词语。

5.如权利要求1所述的识别方法,其特征在于构成所述特征向量的分量包括:地理名词后缀长度、地理名词和代词之间的距离、地理名词距离文本开始的相对距离、代词距离文本开始的相对距离、地理名词距离句子开始的相对距离、代词距离句子开始的相对距离、地理名词距离句子结束的相对距离、代词距离句子结束的相对距离。

6.如权利要求1所述的识别方法,其特征在于在步骤32)中,如果代词前L个词语内存在多个指代关系成立的地理名词,则选择距离代词最近的地理名词;在步骤34)中,如果代词前2L个词语内存在多个指代关系成立的地理名词,则选择距离代词最近的地理名词。

7.如权利要求2所述的识别方法,其特征在于基于区域信息本体中的本体实例名称、属性采用模式匹配方法对步骤3)、4)、5)解析后的网页信息进行处理的方法为:首先基于区域信息本体中的本体实例名称、属性对解析后的网页信息标题进行匹配,如果匹配则将该网页归入所选目标区域;否则对该网页的正文内容进行匹配,如果匹配则将该网页归入目标区域。

8.如权利要求7所述的识别方法,其特征在于如果某一网页无法归入目标区域,则基于事先建立的区域判断模型对该网页进行第三次判断确定:首先将无法归入到目标区域的网页的标题、内容词语综合在一起,然后按照行政地名、电话区号、邮政编码、简称、名胜五个类别进行归类组成五个向量,并分别对这五个向量采用所建目标区域判断模型进行检测判断,并对检测判断的结果进行加权计算,如果加权计算结果大于事先设定的阈值,则该网页归入目标区域;否则,则该网页不能归入目标区域;其中,建立区域判断模型的方法为:建立一网页信息样本集合并对网页进行标注,将网页信息样本的标题、内容词语综合在一起,然后按照行政地名、电话区号、邮政编码、简称、名胜五个类别进行归类组成五个特征向量;然后采用机器学习方法对所选区域建立基于上述五个特征向量的区域判断模型。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院计算机网络信息中心,未经中国科学院计算机网络信息中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201210500929.1/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top