[发明专利]基于区域编码的网络信息归属地索引标记方法在审

专利信息
申请号: 201710298793.3 申请日: 2017-04-28
公开(公告)号: CN107133311A 公开(公告)日: 2017-09-05
发明(设计)人: 董郑江;周银行;杨东;胡淦;陈焕;郑中华 申请(专利权)人: 安徽博约信息科技股份有限公司
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 北京轻创知识产权代理有限公司11212 代理人: 沈尚林
地址: 230000 安徽省合肥市高新*** 国省代码: 安徽;34
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种基于区域编码的网络信息归属地索引标记方法。该方法包括CODE码字符串定义、构建地域词典库、待标记文本解析和创建索引标记等4个步骤。本发明通过文本抽取技术、地域词提取和IP网络备案查询方法,能够更为准确的确定出文本内容所涉及归属地,再基于CODE码地域词典库,将文本归属地以CODE码的形式存储,有效避免了直接用地名词的无关联性短板,方便数据的查询和统计。
搜索关键词: 基于 区域 编码 网络 信息 属地 索引 标记 方法
【主权项】:
基于区域编码的网络信息归属地索引标记方法,包括以下步骤:一、CODE码字符串定义行政区划代码,也称行政代码,它是国家行政机关的识别符号,一般执行两项国家标准:《中华人民共和国行政区划代码》(GB/T2260‑2007)和《县以下行政区划代码编制规则》(GB/T10114‑2003);行政代码由6位到9位阿拉伯数字组成,行政代码从左至右的含义是:第一、二位表示省(自治区、直辖市、特别行政区);第三、四位表示市(地区、自治州、盟及国家直辖市所属市辖区和县的汇总码);其中,01‑20,51‑70表示省直辖市;21‑50表示地区(自治州、盟);第五、六位表示县(市辖区、县级市、旗);01‑18表示市辖区或地区(自治州、盟)辖县级市;21‑80表示县(旗);81‑99表示省直辖县级市。第七至九位表示乡、镇(街道办事处)。示例:安徽省的行政代码:340000;合肥市的行政代码:340100;肥西县的行政代码:340123;三河镇的行政代码:340123101;那么,三河镇CODE码字符串的定义则是由上级行政代码与三河镇的行政代码组合而成,即为“340000340100340123340123101”。同理,肥西县的CODE码为:340000340100340123;则,合肥市的CODE码为:340000340100;安徽省CODE码为行政代码本身。二、构建地域词典库手动创建地域词典库映射表,初始化录入行政地区数据,根据上述CODE码字符串定义方法,将行政代码转化为CODE码,并存入地域词典库中。地域词典库包含主键id、地域名areaName、简称shortName、上级行政区parentId、经度Ing、纬度lat、区域层级leve1和CODE码八个字段。三、待标记文本解析选取任意网站中的一则报道内容,下载超文本标记语言源码,然后过滤掉所有的标签和特殊字符,最终形成干净的文本内容;通过条件随机场分词技术对文本进行分词,分成若干等分;利用隐马尔科夫模型,对熟语料自动角色标注,统计单词的角色频次和角色的转移概率,训练出地域词,并用“/ns”进行标记;多个地名词取频率最高的地名词,频率一样的取最后一个,如果没有则可以通过网站IP的备案查询到归属地,作为文中提及地域的归属地。四、创建索引标记获取网站信息中的地域后,从创建的地域词典库中读取出相应的CODE码,并给此篇内容标记上此归属地标识码,存入到索引中,为后期提供数据查询和统计使用。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于安徽博约信息科技股份有限公司,未经安徽博约信息科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201710298793.3/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top