[发明专利]基于结构化小文本的号码百事通搜索系统和方法有效
申请号: | 200710084911.7 | 申请日: | 2007-02-16 |
公开(公告)号: | CN101246482A | 公开(公告)日: | 2008-08-20 |
发明(设计)人: | 杨震;夏艳;王晓平;陈晓勤;俞惠华 | 申请(专利权)人: | 中国电信股份有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;H04M3/42 |
代理公司: | 中国国际贸易促进委员会专利商标事务所 | 代理人: | 董莘 |
地址: | 100032*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 结构 文本 号码 百事通 搜索 系统 方法 | ||
技术领域
本发明涉及针对数据库的信息检索技术,更具体地,涉及一种针对114数据库利用搜索引擎技术进行信息搜索的系统和方法。
背景技术
传统114数据库是一种关系型数据库,电信所有的企业、个人电话号码及相关信息都存储在这个数据库中,数据库表结构复杂,并且每张表中包含大量的字段。数据库中的信息精练,每个字段存储的文本都很小,有的只有几个字,这与传统的信息检索面对的动辄数千、几万字的大文本有很大差别。其次,每个字段的含义各不相同,这就赋予了每个字段所存储信息的特定含义,这在信息检索领域称之为结构化信息。因此使用搜索引擎对传统114数据库的信息搜索是基于结构化小文本的信息搜索。
目前114使用的是基于一定编码规则的数据库的检索,其供查字段一般只有名称、地址、行业和电话号码等字段。由于各个字段存储的内容不同,有的存储数字,有的存储文本。为了便于对数据库中的内容进行检索,数据库各个字段按其存储信息内容和格式的不同,分别采用不同的编码规则建立索引,然后按索引的方式及相应的编码规则分别确定对应的检索或查询方式。
由于不同字段内信息的编码规则不同,所以针对不同信息的查询方式也不同。通常一个字段就会产生一个索引表,并且对应一种唯一的检索方式。根据具体的业务需求,有时也会有两个字段采用一种方式,形成一张索引表,并且采用相同的检索方式,如图1所示。
图1是示出了基于编码的传统114查询方式的系统示意图。话务员查询时,需判断要输入的编码规则,然后使用“快捷键+输入编码”的方式在相应的字段中进行检索。如果需要组合查询,话务员就得按一定顺序采用几种快捷键与编码的组合进行查询,例如需要同时查名称和地址。
话务员的输入为:【(“快捷键+名称码”)+(“地址快捷键+地址码”)】然后回车进行检索,目前组合查询的效率很低。据统计,对于单字段的查询虽然达到秒级的返回结果,但是对于跨两个字段的组合查询,效率较低,有时一次查询需要30秒左右。而对于词频较高的词汇的查询,有时需要数分钟。
图2是示出了传统114信息查询服务过程的流程图,其中:
在步骤20中坐席人员进行信息查询时,首先与用户沟通,获得用户的查询需求;
在步骤21中坐席人员根据对用户需求的理解及经验,分解用户需求;
在步骤22中形成子需求1至N;
在步骤23中坐席人员根据经验判断每个子需求所对应的数据库中的具体字段;
在步骤24中坐席人员选择每个字段所对应的具体编码规则;
在步骤25中坐席人员根据每种特定的编码规则判断输入法及所对应的表达,即由快捷键选择输入框,然后输入特定的编码;
在步骤26中进行数据库检索;
在步骤27中查询结果返回给坐席人员;以及
在步骤28中坐席人员根据查询结果,继续与用户进行交流,直到用户满意所查询到的信息为止,之后可以进行自动语音报号。
例如,对于用户需求:“请找出四川北路上的一家川菜馆”,传统查询流程如下:
坐席人员判断,川菜馆为餐饮业,而系统中餐饮业的特征码和酒店、饭店的特征码统统属于一个行业,如行业名称为饭店,即其特征码为“FD”。这里的例子特征码采用首拼的方式,复杂的也可能采用首拼及五笔加权或其它的方式,其对坐席人员的查询难度将随着编码规则复杂度的提升而进一步增加。然后坐席人员选择对“四川北路”进行查询的特征码。在所有需输入的特征码都选定之后,话务员再根据要搜索的不同字段选择对应的输入框,结合快捷键选择输入框的方式进行查询。由于传统114数据库中对于川菜一类的稍微细化的需求,数据库中没有明确的编码。查询结果返回的将是所有在四川北路上行业特征码为“FD”的饭店、餐馆、酒店、咖啡屋……等等企业、商家的信息。坐席人员需要在返回的以上信息中,自己查询判断到底哪家是出售川菜的饭店。如果从企业名称中不能判断出这家餐馆是否出售川菜,将不能带给用户满意的结果。
现有的114查询系统存在如下问题:
1.查询方式复杂
传统的114查询手段是基于数据库编码的查询,查询方式复杂,以某省114查询为例:共有17种快捷方式,对应17个输入框。话务员需要记住每种输入条件所对应的输入方法及其所对应的查询内容,需要支持各种编码方式的查询。但不支持对用户需求进行同义和近义的扩展查询。只能提供基于企业名字、号码、地址等信息的精确查询,无法高质量地满足模糊查询的需求。
2.组合查询能力差
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国电信股份有限公司,未经中国电信股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200710084911.7/2.html,转载请声明来源钻瓜专利网。