[发明专利]一种根据实体的汉语简称识别汉语全称的方法及系统有效
申请号: | 200710119513.4 | 申请日: | 2007-07-25 |
公开(公告)号: | CN101093478A | 公开(公告)日: | 2007-12-26 |
发明(设计)人: | 卢汉;曹存根;岳小莉 | 申请(专利权)人: | 中国科学院计算技术研究所 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30 |
代理公司: | 北京泛华伟业知识产权代理有限公司 | 代理人: | 高存秀 |
地址: | 100080北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 根据 实体 汉语 简称 识别 全称 方法 系统 | ||
技术领域
本发明涉及中文信息处理和信息检索领域的缩略语识别技术,特别涉及对上下文无关的缩略语的基于优先级函数的识别方法。
背景技术
自然语言处理是计算机科学领域与人工智能领域中的一个重要问题。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。随着计算机和互联网的广泛应用,计算机可处理的自然语言文本数量空前增长,面向海量信息的文本挖掘、信息提取、跨语言信息处理、人机交互等应用需求急速增长,自然语言处理的对象也从小规模受限语言处理转向大规模真实文本处理,其研究必将对人们的生活产生深远的影响。
中文信息处理是研究如何利用计算机对汉语信息进行自动处理。汉语是一门意合语言,和西方语言相比,缺少显式的标记,语法、语义、语用方面也更加灵活,增加了计算机理解和处理的难度,要让计算机能够处理中文信息,尚有许多困难需要克服。目前,中文信息处理已经在语音识别、分词、机器翻译等领域取得了一些成果。中文信息自动化处理程度的提升,将对我国的科技、文化、经济、安全等带来可观的效益。
信息检索,研究如何从纷繁复杂的大量信息中,快速、准确获取所需信息的技术。信息检索技术经过多年的发展,目前已经相当成熟,新型信息检索技术正朝智能化、动态化、多样化、个性化等方向发展。
汉语缩略语又叫简称,是汉语习惯用法经过精简和压缩得到的短语,并且仍然保留着原习惯用法的意义,与之对应的习惯用法完整形式用法称为原语或全称。汉语缩略语识别技术发展到今天,已经取得了一些成果,但是识别率离真正的应用仍有一定的距离,尤其是在识别一些不同地域和专业领域的文本时,更是错误频频。
常见的缩略语识别方法可分为基于词典的方法和基于统计的方法两大类。传统的基于词典的方法使用简单,准确率较高。目前国内通用领域的缩略语词典有十几种,常用的缩略语词典有《现代汉语缩略语词典》、《常用缩略语词典》等,此外还有很多领域专用的缩略语词典。虽然基于词典方法具有较高的准确率,但由于汉语通用缩略语词典收入的缩略语数量有限,难以满足不同地域和领域人群的需求。而且由于汉字衍生能力强,新词产生速度快,许多词语在被广泛使用的同时也被缩减产生新的缩略语。此外,不同地域、不同领域的人对同一缩略语可能有多种不同理解。这些问题都使得基于词典的方法具有很大的局限性。
另一类统计的方法基于词频或页面引用率高低选择最可能的词条作为原语,常见的如Google等搜索引擎。虽然它在一般常见缩略语识别上有较高识别率,但由于词频统计本身精确性不高,且常受到其他因素的干扰,识别准确率很难进一步提高。例如,用Google检索“香山”,检索结果“香山国际会议”和“香山饭店”排在“北京香山公园”之前。其原因就在于通用的基于统计的缩略语识别,受其他因素干扰太大。在局部范围里,“香山国际会议”和“香山饭店”的页面引用率可能比“香山公园”的高,导致无法第一时间获取最可能的原语。
发明内容
本发明的目的是克服现有技术中的汉语简称识别方法在应用上具有局限性或者识别准确率不高的缺陷,从而提供一种与上下文无关的通用汉语简称识别方法。
为了实现上述目的,本发明提供了一种根据实体的汉语简称识别汉语全称的方法,包括:
步骤1)、输入待识别缩略语;
步骤2)、读入常用词条库,所述的常用词条库包含常用词语和该词语的词频统计信息;
步骤3)、根据待识别缩略语,从所述的常用词条库中筛选出同时满足第一优先级函数和第二优先级函数要求的候选原语集合;
步骤4)、根据所述候选原语集合的规模、词频统计信息及结构特征信息,选择至少一路优先级函数组合,利用所述的优先级函数组合对所述候选原语集合进行筛选,每一路优先级函数组合得到一组对应的候选原语筛选结果;
步骤5)、在每一组候选原语筛选结果中计算候选原语的优先级,根据所述优先级的大小对所述候选原语排序,并保留优先级较高的候选原语;
步骤6)、对各组候选原语筛选结果中所保留的优先级较高的候选原语进行统计和排序,找出匹配次数最多、优先级最高的一条或几条作为最终结果。
上述技术方案中,在所述的步骤1)中,所述的待识别缩略语为单独的词语或为利用分词操作从带有待识别缩略语的文档中得到的待识别缩略语。
上述技术方案中,在所述的步骤1)和步骤2)之间,读入一个缩略语知识库,将所述的待识别缩略语在缩略语知识库中进行检索,若所述待识别缩略语存在于缩略语知识库,则直接返回与所述待识别缩略语对应的原语。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院计算技术研究所,未经中国科学院计算技术研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200710119513.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:旋转机构
- 下一篇:基于V5接口的接入网用户呼叫方法