[发明专利]基于区域编码的网络信息归属地索引标记方法在审
申请号: | 201710298793.3 | 申请日: | 2017-04-28 |
公开(公告)号: | CN107133311A | 公开(公告)日: | 2017-09-05 |
发明(设计)人: | 董郑江;周银行;杨东;胡淦;陈焕;郑中华 | 申请(专利权)人: | 安徽博约信息科技股份有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京轻创知识产权代理有限公司11212 | 代理人: | 沈尚林 |
地址: | 230000 安徽省合肥市高新*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于区域编码的网络信息归属地索引标记方法。该方法包括CODE码字符串定义、构建地域词典库、待标记文本解析和创建索引标记等4个步骤。本发明通过文本抽取技术、地域词提取和IP网络备案查询方法,能够更为准确的确定出文本内容所涉及归属地,再基于CODE码地域词典库,将文本归属地以CODE码的形式存储,有效避免了直接用地名词的无关联性短板,方便数据的查询和统计。 | ||
搜索关键词: | 基于 区域 编码 网络 信息 属地 索引 标记 方法 | ||
【主权项】:
基于区域编码的网络信息归属地索引标记方法,包括以下步骤:一、CODE码字符串定义行政区划代码,也称行政代码,它是国家行政机关的识别符号,一般执行两项国家标准:《中华人民共和国行政区划代码》(GB/T2260‑2007)和《县以下行政区划代码编制规则》(GB/T10114‑2003);行政代码由6位到9位阿拉伯数字组成,行政代码从左至右的含义是:第一、二位表示省(自治区、直辖市、特别行政区);第三、四位表示市(地区、自治州、盟及国家直辖市所属市辖区和县的汇总码);其中,01‑20,51‑70表示省直辖市;21‑50表示地区(自治州、盟);第五、六位表示县(市辖区、县级市、旗);01‑18表示市辖区或地区(自治州、盟)辖县级市;21‑80表示县(旗);81‑99表示省直辖县级市。第七至九位表示乡、镇(街道办事处)。示例:安徽省的行政代码:340000;合肥市的行政代码:340100;肥西县的行政代码:340123;三河镇的行政代码:340123101;那么,三河镇CODE码字符串的定义则是由上级行政代码与三河镇的行政代码组合而成,即为“340000340100340123340123101”。同理,肥西县的CODE码为:340000340100340123;则,合肥市的CODE码为:340000340100;安徽省CODE码为行政代码本身。二、构建地域词典库手动创建地域词典库映射表,初始化录入行政地区数据,根据上述CODE码字符串定义方法,将行政代码转化为CODE码,并存入地域词典库中。地域词典库包含主键id、地域名areaName、简称shortName、上级行政区parentId、经度Ing、纬度lat、区域层级leve1和CODE码八个字段。三、待标记文本解析选取任意网站中的一则报道内容,下载超文本标记语言源码,然后过滤掉所有的标签和特殊字符,最终形成干净的文本内容;通过条件随机场分词技术对文本进行分词,分成若干等分;利用隐马尔科夫模型,对熟语料自动角色标注,统计单词的角色频次和角色的转移概率,训练出地域词,并用“/ns”进行标记;多个地名词取频率最高的地名词,频率一样的取最后一个,如果没有则可以通过网站IP的备案查询到归属地,作为文中提及地域的归属地。四、创建索引标记获取网站信息中的地域后,从创建的地域词典库中读取出相应的CODE码,并给此篇内容标记上此归属地标识码,存入到索引中,为后期提供数据查询和统计使用。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于安徽博约信息科技股份有限公司,未经安徽博约信息科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710298793.3/,转载请声明来源钻瓜专利网。
- 上一篇:僵尸网站的检测方法
- 下一篇:一种电子签章方法及装置