[发明专利]一种根据实体的汉语简称识别汉语全称的方法及系统有效
申请号: | 200710119513.4 | 申请日: | 2007-07-25 |
公开(公告)号: | CN101093478A | 公开(公告)日: | 2007-12-26 |
发明(设计)人: | 卢汉;曹存根;岳小莉 | 申请(专利权)人: | 中国科学院计算技术研究所 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30 |
代理公司: | 北京泛华伟业知识产权代理有限公司 | 代理人: | 高存秀 |
地址: | 100080北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种根据实体的汉语简称识别汉语全称的方法,包括输入待识别缩略语;读入常用词条库;根据待识别缩略语,从所述的常用词条库中筛选出候选原语集合;利用多路优先级函数组合对候选原语集合进行筛选;计算候选原语的优先级,保留优先级较高的候选原语;找出匹配次数最多、优先级最高的一条或几条候选原语作为最终结果。本发明还公开了一种根据实体的汉语简称识别汉语全称的系统,包括输入模块、常用词条库、候选原语产生模块以及候选原语筛选模块。本发明无需借助上下文即可实现对汉语缩略语的识别和理解;方便了用户的检索,提高了自然语言理解和信息检索的准确率。 | ||
搜索关键词: | 一种 根据 实体 汉语 简称 识别 全称 方法 系统 | ||
【主权项】:
1、一种根据实体的汉语简称识别汉语全称的方法,包括:步骤1)、输入待识别缩略语;步骤2)、读入常用词条库,所述的常用词条库包含常用词语和该词语的词频统计信息;步骤3)、根据待识别缩略语,从所述的常用词条库中筛选出同时满足第一优先级函数和第二优先级函数要求的候选原语集合;步骤4)、根据所述候选原语集合的规模、词频统计信息及结构特征信息,选择至少一路优先级函数组合,利用所述的优先级函数组合对所述候选原语集合进行筛选,每一路优先级函数组合得到一组对应的候选原语筛选结果;步骤5)、在每一组候选原语筛选结果中计算候选原语的优先级,根据所述优先级的大小对所述候选原语排序,并保留优先级较高的候选原语;步骤6)、对各组候选原语筛选结果中所保留的优先级较高的候选原语进行统计和排序,找出匹配次数最多、优先级最高的一条或几条作为最终结果。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院计算技术研究所,未经中国科学院计算技术研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/200710119513.4/,转载请声明来源钻瓜专利网。
- 上一篇:旋转机构
- 下一篇:基于V5接口的接入网用户呼叫方法