[发明专利]一种中文人名识别的方法和装置有效
申请号: | 200910177127.X | 申请日: | 2009-09-27 |
公开(公告)号: | CN102033879A | 公开(公告)日: | 2011-04-27 |
发明(设计)人: | 罗长升;方高林 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 北京鑫媛睿博知识产权代理有限公司 11297 | 代理人: | 龚家骅 |
地址: | 518057 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 中文 人名 识别 方法 装置 | ||
技术领域
本发明涉及互联网技术领域,尤其涉及一种中文人名识别的方法和装置。
背景技术
中文信息处理是指用计算机对中文的音、形、义等信息进行处理和加工,是自然语言信息处理的一个分支。其中,中文信息处理主要研究如何利用计算机对汉语信息进行自动处理,与英文等西方语言相比,汉语缺乏明显的分隔标记,在语法、语义和语用等方面也更加灵活,这就增加了计算机处理和理解的难度。而词语分析是中文自然语言处理的前提和基础,中文词语分析的研究也已经取得较大的进展,但是,在处理含有未登录词的文本时,相应的处理结果一般难以满足实际的需求。
具体的,未登录词的错误识别,不仅仅会导致自身无法正确识别,而且未登录词往往与前后的其他字词交叉组合,会严重影响其他词的正确识别,从而直接降低了词语分析的正确率,甚至影响到整个句子分析的正确率。可以看出,未登录词的自动识别已经成为了中文词语分析质量的瓶颈问题。
进一步的,命名实体在未登录词中占有较大的比重,也是未登录词识别的主要难点。其中,命名实体是指文本中具有特定意义的实体,可以表示为现实世界中的抽象事物或者具体事物,该命名实体主要包括人名、地名、机构名、日期、时间、货币值和百分数等。而从识别效果上看,日期、时间、货币值和百分数等的识别相对简单,规则的统计、数据的训练统计也相对容易。
但是,由于人名、地名、机构名等命名实体具有开放性和发展性的特点,构成规律具有较大的随意性,使得对人名、地名、机构名的识别存在着较大的误识别和漏识别;而且命名实体的识别对于正确理解文本具有重要意义,是信息抽取、自动问答、机器翻译等技术的基础;因此,对人名、地名、机构名的识别也是现在命名实体识别的研究重点。其中,在人名、地名、机构名的识别过程中,中国人名和音译人名等人名实体在命名实体中占有很大的比重,使得人名的自动识别成为了未登录识别的重点,人名识别问题的解决将会改善汉语词法分析、句法分析乃至中文信息处理的最终质量。
现有技术中,通常使用基于角色标注的方法进行中国人名的自动识别,即利用从语料库中自动抽取的角色信息,采取Viterbi算法(Viterbi算法是一种卷积码的解码算法)对切词结果进行角色标注,在角色序列的基础上,进行模式最大匹配,从而实现中国人名的识别。
具体的,该基于角色标注的方法认为:句子中的每个词条都隐含地携带了一个角色信息,其中,角色表示词条在句子或命名实体中所起的作用。该角色标注就是指对切分结果得到的词条序列中的每个词条标注上相应的角色,其中,角色主要分为三类,分别为:人名的内部组成角色、与上下文成词角色、人名无关角色。如表1所示的一种角色表:
表1
可以看出,根据表1所示的角色表,当切分结果为馆/内/陈列/周/恩/来/和/邓/颖/超生/前/使用/过/的/物品/时,对切分结果得到的词条序列中的每个词条标注上相应的角色的结果(即角色标注的结果)为“馆/A内/A陈列/A周/B恩/C来/D和/A邓/B颖/C超生/V前/A使用/A过/A的/A物品/A”
进一步的,在该基于角色标注的方法中,是通过使用Viterbi算法进行角色的自动标注的;即从所有可能的标注序列中优选出概率最大的标注作为最终的标注结果;具体的理论及推导过程如下:
假设W是分词后的Token序列(即未登录词识别前的分词结果),W=(w1,w2,...,wm);T是W的某个可能的角色标注序列,T=(t1,t2,...,tm),m>0;其中,T#为最终标注结果,即概率最大的角色序列。根据Bayes公式,并引入隐马尔科夫模型,则
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200910177127.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:医用跟腱断裂术后可调式固定装置
- 下一篇:用于检测行为模式的方法及设备