[发明专利]中文命名实体中特征词项的识别方法和系统有效
申请号: | 200710121868.7 | 申请日: | 2007-09-17 |
公开(公告)号: | CN101118538A | 公开(公告)日: | 2008-02-06 |
发明(设计)人: | 曹馨宇;曹存根;岳小莉 | 申请(专利权)人: | 中国科学院计算技术研究所 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30 |
代理公司: | 北京泛华伟业知识产权代理有限公司 | 代理人: | 王勇 |
地址: | 100080北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 中文 命名 实体 特征 识别 方法 系统 | ||
技术领域
本发明涉及中文信息处理和信息检索领域中的词语识别,特别涉及一种对命名实体中特征词项的识别方法及相应系统。
背景技术
自然语言处理,是计算机科学领域与人工智能领域中的一个重要问题。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。随着计算机和互联网的广泛应用,计算机可处理的自然语言文本数量空前增长,面向海量信息的文本挖掘、信息提取、跨语言信息处理、人机交互等应用需求急速增长,自然语言处理的对象也从小规模受限语言处理转向大规模真实文本处理,其研究必将对人们的生活产生深远的影响。
中文信息处理是指研究如何利用计算机对汉语信息进行自动处理。汉语是一门意合语言,和西方语言相比,缺少显式的标记,在语法、语义、语用方面也更加灵活,这就增加了计算机理解和处理的难度。要让计算机能够处理中文信息,尚有许多困难需要克服。目前,中文信息处理已经在语音识别、分词、机器翻译等领域取得了一些成果。中文信息自动化处理程度的提升,将对我国的科技、文化、经济、安全等带来可观的效益。
信息检索是研究如何从纷繁复杂的大量信息中,快速、准确地获取所需信息的技术。信息检索技术经过多年的发展,目前已经相当成熟,新型信息检索技术正朝智能化、动态化、多样化、个性化等方向发展。
命名实体(Named Entity,NE)是指文本中具有特定意义的实体,可以表示现实世界中的抽象或者具体的事物,主要包括人名、地名、机构名、专有名词等。要正确地理解文本就要正确地识别命名实体。命名实体识别是信息抽取(Information Extraction)、自动问答(Question Answering)、机器翻译(Machine Translation)等技术的重要基础。
命名实体(NE)由一个或多个特征词项(Feature Words Item,简称FWI)组成,特征词项在其所在命名实体中有一定独立意义。例如:命名实体“南京市白下区长清牛羊肉经营部”所包含的特征词项包括:南京市,白下区,长清,牛羊肉,经营部。
从命名实体中识别出正确的特征词项,有利于对分词结果进行有效地纠正,提高分词的正确率,未登陆词识别的正确性。有助于信息检索中关键词查询和自然语言查询的分析。但在现有技术中,缺少利用计算机从中文命名实体中自动识别特征词项的相关方法。
发明内容
因此,本发明的目的是克服现有技术中不具备从中文命名实体中识别特征词项的相关方法的缺陷,从而提供一种中文命名实体中特征词项的识别方法。
为了实现上述目的,本发明提供了一种中文命名实体中特征词项的识别方法,包括:
步骤1)、对待识别的命名实体进行分词操作,得到候选命名实体;
步骤2)、对所述的候选命名实体进行用于复合连续单字的初步处理,得到第一计算结果;
步骤3)、根据所述的候选命名实体和所述的第一计算结果建立词典,根据所述的第一计算结果建立词境词典;所述词典和所述词境词典统称为词典库;
步骤4)、参考所述的词典库,对所述的第一计算结果至少做一次复合处理,每一次复合处理后,根据处理结果扩充所述词典库,在下一次复合处理时,所参考的词典库为扩充后的词典库;所述的复合处理包括:对所述的候选命名实体分别运行包括第二计算过程、第三计算过程、第四计算过程、第五计算过程、第六计算过程、第七计算过程、第八计算过程和第九计算过程在内的多个计算过程,在运行其中一个计算过程时,对所述候选命名实体中的每个单字得到一个左权重值或右权重值或左右复合权重值,将每个单字在所述多个计算过程中所得到的所有左权重值相加,所有右权重值相加,所有左右复合权重值相加;最后判断单字的左右复合权重值的和是否大于0,若大于0,则认为所述复合处理的结果为左右复合权重值的和,若左右复合权重值的和为0,则所述复合处理的结果为左权重和与右权重和中值较大的一个;其中,
所述的第二计算过程包括根据所述候选命名实体中的单字的词性,为所述单字设置向左复合、向右复合或左右复合的权重;
所述的第三计算过程包括当候选命名实体中的单字与其临近的词或特征词项复合后的结果存在于所述词典中时,将复合后的结果认为是特征词项;
所述的第四计算过程包括当候选命名实体中的单字与其临近的词或特征词项复合后的结果不存在于所述词典中时,从词典中寻找与复合后的特征词项类似的特征词项;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院计算技术研究所,未经中国科学院计算技术研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200710121868.7/2.html,转载请声明来源钻瓜专利网。