[发明专利]用于电信信息台的信息采集和搜索系统有效
申请号: | 200610154206.5 | 申请日: | 2006-09-14 |
公开(公告)号: | CN101146152A | 公开(公告)日: | 2008-03-19 |
发明(设计)人: | 童小兵;申红梅;铁兵;陈云海;林立宇 | 申请(专利权)人: | 中国电信股份有限公司 |
主分类号: | H04M3/42 | 分类号: | H04M3/42;H04M3/51;H04M3/523;H04M3/493;G06F17/30 |
代理公司: | 中国国际贸易促进委员会专利商标事务所 | 代理人: | 李玲 |
地址: | 100032*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 电信 信息台 信息 采集 搜索 系统 | ||
技术领域
本发明涉及一种信息采集和查询系统,确切地说,涉及一种用于号码百事通业务的这类电信信息台的信息采集和搜索系统的体系架构。
背景技术
互联网智能信息采集(通常称之为网络爬虫)和信息搜索(通常称之为搜索引擎)技术目前仅在互联网的搜索服务中得到了比较好的应用,该技术主要用来搜集并保存网页内容数据,并对网页一类的非结构化文本信息进行索引和查询。通过输入关键词等查询条件,系统在索引数据库中查找满足条件的信息,并按照预先设定的规则进行排序显示。
电信信息台的主要业务功能是向拨打信息台接入号码的用户准确提供所需要的信息,因此只有采用具有强大的信息采集和搜索功能的系统才能满足其要求。与网页搜索不同的是,在业务接入方式上,信息台采用单一的接入号码,通过呼叫中心处理用户的呼入,并在排队机上将呼叫分发到坐席。在信息索引和查询上,号码百事通具有大量的结构化信息(指按照一定格式和要求保存的数据),以及相对少的非结构化信息(文本数据),结构化信息和非结构化信息之间可以通过关键词来实现关联。目前移动、固定电话已经非常普及,因此,通过对现有的号码百事通的业务系统进行改造,采用更具灵活性和扩展性的体系结构来建设新的信息采集和搜索系统,可以满足号码百事通在信息运营方面的需求。
信息采集和搜索系统是电信信息台业务支撑系统的一个重要组成部分,对丰富信息台的业务信息、提高查询的效率和准确度、降低查无率以及开展行业首查类等新业务具有重要作用。因此,电信信息台的信息采集和搜索系统需要具备信息采集、加工、存储、发布、索引、查询、业务规则管理等必要的功能。要实现上述功能,系统就必须支持从各种信息源获取数据,支持协作式的内容加工流程定义,需要实现对结构化数据和非结构化数据的联合搜索,并且将搜索的结果按照业务规则的要求进行排序显示。因此,该软件系统需要设计良好的体系结构,以满足信息台业务发展的需求。一个设计合理的软件系统结构,对整个系统的实际运行具有重大作用。
发明内容
本发明的目的是为号码百事通的语音信息查询服务提供一种新颖的信息采集和信息搜索系统,该系统的体系结构和功能划分比较具体、合理,易于实现,而且具备比较好的扩展性和灵活性。
为实现本发明的目的,提供了一种用于号码百事通业务的信息采集和查询系统。所述系统至少包括信息采集服务器、数据存储服务器以及信息管理及运营服务器,其中,所述信息采集服务器用于处理各种信息源输入的信息,并通过IP网采用TCP协议与信息管理和运营服务器相连接;所述信息管理和运营服务器用于对信息、关键词表和业务规则进行管理并提供信息查询服务,并通过IP网采用TCP协议与数据存储服务器和信息采集服务器相连接;所述数据存储服务器用于存储系统的各种数据;以及所述系统通过信息采集服务器、数据存储服务器、信息管理和运营服务器对多个信息源进行统一采集和处理、对结构化信息和非结构化信息进行联合搜索,并对搜索的结果按照业务规则进行排队显示,以根据用户的查询需求进行信息采集和查询。
优选地,所述信息采集和查询系统中的所述信息管理和运营服务器可以和多个信息采集服务器连接,并通过TCP协议将信息采集的相关配置参数发给信息采集服务器;所述信息采集服务器还包括:互联网信息采集模块,由信息采集服务器根据接收到的参数进行配置,用于按照所设定的参数对互联网上网站的内容进行抓取并通过TCP协议将数据传送给信息管理和运营服务器;综合业务支撑系统IBSS码号信息变更处理模块,用于处理从IBSS送过来的发生变更的号码及单位名称、地址等信息,并对这些信息进行格式化处理;表单输入模块,用于处理手工输入的结构化信息,该模块可以按照行业定义输入的字段,并对输入的内容进行格式检查;任务输入模块,输入信息采集人员的信息搜集任务的具体内容;以及SP/CP信息输入接口模块,用于处理从SP/CP的系统送过来的信息,并将数据格式转换为XML格式。
其中,所述互联网信息采集模块所运行参数包括:统一资源定位符URL、采集时间、搜索深度、搜索广度、网站的登录参数、信息分类关键词等等;以及所述的互联网信息采集模块还用于实时动态搜集互联网上各行业网站的信息,并通过其余模块添加补充信息来源,对原有的码号信息进行扩展,补充相关的增值信息,建立号码百事通业务信息数据库。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国电信股份有限公司,未经中国电信股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200610154206.5/2.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置