[发明专利]一种机构别称的获取方法和装置在审
申请号: | 201210306512.1 | 申请日: | 2012-08-24 |
公开(公告)号: | CN102880647A | 公开(公告)日: | 2013-01-16 |
发明(设计)人: | 王松 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 深圳市威世博知识产权代理事务所(普通合伙) 44280 | 代理人: | 何青瓦;李庆波 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 机构 别称 获取 方法 装置 | ||
【技术领域】
本发明涉及互联网信息处理技术领域,特别涉及一种机构别称的获取方法和装置。
【背景技术】
电子地图中兴趣点(point of interest,POI)数据,通常包括名称、地址、联系电话、类别、位置坐标等信息,用以表示电子地图中的位置实体,可以是地名,也可以是企业、单位等组织机构名称。当用户进行兴趣点查询时,搜索引擎在接收到用户输入的搜索词(query)后,找出兴趣点名称与搜索词相匹配的数据,并返回相关搜索结果给用户。
在日常生活中,人们经常使用别称来描述事物,包括简称、别名、俗称、曾用名等等,例如“北京大学”的简称为“北大”,“国家体育场”的别名为“鸟巢”等,也就是说,一个组织机构除了有一个完整的官方名称(全称)外,通常还会有多种简称及别名信息。而在进行查询时,人们往往也习惯输入地名的简称或别名作为搜索词,特别是在不能确定对应的全称的情况下,人们更愿意输入这些别称,意图可以进行模糊查询。
然而,目前大部分的兴趣点数据的名称字段采用的都是对应的全称,由于目前的搜索引擎并不能自动处理全称与别称之间的对应关系,当用户使用地名的简称或别称进行查询时,例如,“鸟巢”是“国家体育场”的别称,如果在POI数据库中只包含“国家体育场”,而不包含“鸟巢”,在用户搜索关键词“鸟巢”时,很有可能将无法返回相应的搜索结果,这就造成了大量数据资源的浪费,影响用户的体验。
现有的搜索引擎在处理全称与别称之间的对应关系时,只能依靠人工添加的方式来实现。这样将耗费大量的人力,而且还容易出现更新不及时或遗漏的情形,就会造成覆盖不到相关的搜索结果,导致召回率低,用户体验差。
【发明内容】
有鉴于此,本发明提供了一种机构别称的获取方法和装置,能够自动利用网页中的信息进行挖掘,节省人力成本,提高准确率和信息召回率,能够提高数据的利用率,提升用户体验。
具体技术方案如下:
一种机构别称的获取方法,该方法包括以下步骤:
获取互联网中各网页页面对应的站点首页,利用所述站点首页提取各站点相对应的机构全称;
获取互联网中各网页页面包含的链接信息及对应的锚文本;
利用预先构建的机构名称词典或者预设的语义规则,将能够与所述机构名称词典相匹配或满足所述语义规则的锚文本识别为机构名称;
将具有相同链接信息的所述机构名称与机构全称相关联,并将满足预设要求的机构名称识别为机构别称。
根据本发明一优选实施例,所述获取互联网中各网页页面对应的站点首页,具体包括:
从所述网页页面的网址中取出域名地址,对所述域名地址进行跳转处理,得到对应的站点首页;
或者,利用站点的首页样本集合,统计分析其链接锚文本及网址样式特征构建首页分类器,利用所构建的首页分类器对所述网页页面进行分类,得到所有的站点首页。
根据本发明一优选实施例,所述利用站点首页提取各站点对应的机构全称,具体包括:
将所述站点首页解析成文档对象模型树,获取所述站点首页的页面标题,将所述页面标题识别为机构全称;
或者,将所述站点首页解析成文档对象模型树,获取所述站点首页的页面标题和版权块信息,将能够与预先构建的机构名称词典相匹配的页面标题或版权块信息识别为机构全称。
根据本发明一优选实施例,在所述提取各站点相对应的机构全称之后,还包括:
利用预先构建的机构名称词典,从同一站点内的其他网页中识别该站点的机构名称;
利用识别到的不同来源的机构名称,对所述机构全称进行校验。
根据本发明一优选实施例,在所述获取互联网中各网页页面包含的链接信息及对应的锚文本之后,还包括:
将所获取的链接信息及对应的锚文本组成二元信息对,统计各二元信息对的出现频次,形成三元信息组;
所述满足预设要求包括:
所述机构名称对应的锚文本的出现频次,超过预设次数阈值或者排在前N个,N为预设正整数。
根据本发明一优选实施例,在所述将具有相同链接信息的所述机构名称与机构全称相关联之后,还包括:
计算所述机构名称与相关联的机构全称之间的相似度;
所述满足预设要求包括:
所述机构名称与对应的机构全称的相似度大于预设相似度阈值。
根据本发明一优选实施例,所述计算机构名称与相关联的机构全称之间的相似度,具体包括:
判断所述机构名称中的各个字符是否在所述机构全称中出现,计算字面相似度;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210306512.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种权限控制方法及装置
- 下一篇:包膜型增效氮肥组合物及其制备方法