[发明专利]基于互联网的组织机构信息整合与更新方法无效
申请号: | 201210177317.3 | 申请日: | 2012-06-01 |
公开(公告)号: | CN102722562A | 公开(公告)日: | 2012-10-10 |
发明(设计)人: | 于满泉 | 申请(专利权)人: | 浙江灵玖天下软件有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 316100 浙江省*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 互联网 组织机构 信息 整合 更新 方法 | ||
技术领域
本发明涉及互联网信息智能处理技术领域,更具体地说,本发明涉及一种基于互联网的组织机构信息整合与更新方法。
背景技术
组织机构信息主要指组织机构的名称、地址、联系人、联系电话、电子邮件等信息。组织机构数据库是用来存放大量组织机构信息的数据库,其在信息发布、商函投递、定向营销领域往往发挥着很大的作用。由于组织机构信息变更等原因,组织机构数据库中往往存在着不少错误记录,且这些错误记录很难进行更新。目前对组织机构信息进行更新的方法主要是通过周期性的人工校对方式对组织机构数据库进行更新,该方法的缺点是:①对组织机构数据库更新的速度跟不上组织机构信息的变化,从而使得数据记录的质量持续下降;②组织机构信息更新成本高。
本发明使用的已有技术包括:元搜索引擎。
元搜索引擎是通过一个统一的用户界面帮助用户在多个搜索引擎中选择和利用合适的(甚至是同时利用若干个)搜索引擎来实现检索操作,是对分布于网络的多种检索工具的全局控制机制。
发明内容
本发明的目的在于克服现有技术的缺点,解决目前无法对组织机构数据进行大规模有效整合和更新的问题,提出一种基于互联网的组织机构信息整合与更新方法。
本发明的目的是通过下述技术方案实现的。
一种基于互联网的组织机构信息自动整合与更新方法,用于对组织机构数据库中的组织机构信息进行更新;所述组织机构信息包括但不限于:组织机构的名称、地址、联系人、联系电话、电子邮件;该方法的操作步骤包括步骤1至步骤6,具体为:
步骤1:获取包含指定组织机构的组织机构信息的网页,获取到的网页数量用N表示,N为正整数。
从互联网上获取包含指定组织机构的组织机构信息的网页,具体为:定时扫描组织机构数据库,依次将组织机构数据库中的组织机构的名称作为搜索关键词,利用搜索引擎在互联网上获取包含搜索关键词的网页。
所述搜索引擎为元搜索引擎。
所述包含搜索关键词的网页具体为对应组织机构的主页、包含对应组织机构招聘信息的网页。
步骤2:抽取组织机构信息。
利用网页格式解析技术依次从步骤1获取到的包含指定组织机构的组织机构信息的网页上抽取组织机构信息,从N个网页上得到N条组织机构信息;具体操作为:
步骤2.1:对步骤1获取到的包含指定组织机构的组织机构信息的网页进行HTML解析,得到DOM树。即:根据网页标签建立DOM树的节点,将HTML文本转化为DOM树的结构。
步骤2.2:对步骤2.1处理的网页进行DOM树分析,提取其中的组织机构信息。
步骤3:判断待匹配组织机构信息是否与原始组织机构信息一致。
将步骤2抽取得到的组织机构信息称为待匹配组织机构信息,将组织机构数据库中对应的组织机构信息称为原始组织机构信息。设定临时变量k,0<k≤N,并将k的初始值设为1。依次判断第k个待匹配组织机构信息是否与原始组织机构信息一致,如果结果为不相关,则将第k个待匹配组织机构信息作为新数据补充至组织机构数据库中;如果第k个待匹配组织机构信息与原始组织机构信息不一致,执行步骤4的操作;否则,使k值自增1,然后判断k>N是否成立,如果不成立,重复步骤3;否则,终止。
所述判断待匹配组织机构信息是否与原始组织机构信息一致的具体方法是:
步骤3.1:判断待匹配组织机构信息中的组织机构名称与原始组织机构信息中的组织机构名称是否一致。如果判断的结果是一致,则执行步骤3.2的操作;否则,得出待匹配组织机构信息与原始组织机构信息不相关的结论。
所述判断待匹配组织机构信息中的组织机构名称与原始组织机构信息中的组织机构名称是否一致的具体操作是:
步骤3.1.1:分别从待匹配组织机构信息中的组织机构名称和原始组织机构信息中的组织机构名称中解析出一级行政区划、字号、所属行业等信息。
步骤3.1.2:判断待匹配组织机构信息中的一级行政区划与原始组织机构信息中的一级行政区划是否一致:如果待匹配组织机构信息中的一级行政区划与原始组织机构信息中的一级行政区划完全相同,或者其中一个缺失,则得出待匹配组织机构信息中的一级行政区划与原始组织机构信息中的一级行政区划一致的结论,执行步骤3.1.3的操作;否则,得出待匹配组织机构信息中的组织机构名称与原始组织机构信息中的组织机构名称不一致的结论。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江灵玖天下软件有限公司,未经浙江灵玖天下软件有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210177317.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:复位信号抗干扰电路
- 下一篇:一种紧凑型嵌入式微投引擎
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置