[发明专利]中文姓名的识别方法和装置在审
申请号: | 201510881661.4 | 申请日: | 2015-12-03 |
公开(公告)号: | CN105373530A | 公开(公告)日: | 2016-03-02 |
发明(设计)人: | 敬星;刘鹏 | 申请(专利权)人: | 北京锐安科技有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 北京品源专利代理有限公司 11332 | 代理人: | 胡彬;孟金喆 |
地址: | 100044 北京市海淀区西小口*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 中文 姓名 识别 方法 装置 | ||
技术领域
本发明实施例涉及信息识别技术领域,尤其涉及一种中文姓名的识别方法和装置。
背景技术
汉语的自身特点使得中文信息自动处理大多是先对要处理的文本进行自动分词,如加入显式分割符,然后再在分词的基础上进行词法、语法、以及语义等方面的深入分析。而在分词阶段,中文文本中的中文姓名大多被切分成单字词,在这种情形下如不能很好地解决中文文本中中文姓名的识别问题,将给其后的中文文本的深入分析带来难以逾越的障碍。中文姓名的自动识别问题就是在这种背景下提出来的。对这一问题的研究目前采用的技术有规则方法、统计方法以及规则与统计相结合的方法。
其中,规则方法一般是,获取中文文本,并进行分词,根据中文姓名的构成原则得到姓名候选词,从姓名候选词中提取姓名词,得到所获取的中文文本的中文姓名词汇表。其中,中文姓名的构成原则是指:中文姓名一般由二字或三字组成,第一字为姓用字(而复姓则为前两字),其后的一到两个汉字为名用字。
统计方法一般包括:使用姓名语料库来训练某个字作为姓名组成部分的概率值;依据其概率值计算某个候选字段作为姓名的概率;其中概率值大于一定阈值的字段为识别出的中文姓名。
规则与统计相结合的方法,可以通过概率计算减少规则方法的复杂性与盲目性,而且可以降低统计方法对语料库规模的要求。目前的研究基本上都是采取规则与统计的方法,不同之处仅仅在于规则与统计的侧重不同而已。
现有解决方案本身存在着固有的一些不足:
首先,扫描到姓氏用字这种具有明显姓名特征的字段时,才将前后的几个字列为姓名候选词进行中文姓名的识别,使得不具备明显姓名特征的中文姓名往往会被丢失,如“有姓无名”的中文姓名,例如“李称杨已离开上海”,“张和刘是好朋友”。其次,姓名候选词大都是选取切分后的碎片,在这种选取机制的作用下,中文姓名内部成词以及中文姓名与上下文成词的情况导致得到的姓名候选词的识别率低,从而导致从其中提取的中文姓名的识别率低。例如:[王国]维,由于内部成词,姓名候选词为切分后的碎片“王国”,这样并不会提取到中文姓名“王国维”。根据对80,000条中文姓名的统计,内部成词的比例高达8.49%,由于这两种成词机制所引起的识别率损失将不小于10%。
发明内容
本发明实施例提供一种中文姓名的识别方法和装置,以提高中文文本中中文姓名的识别率。
第一方面,本发明实施例提供了一种中文姓名的识别方法,包括:
获取中文文本;
对所述中文文本进行预处理和分词,得到预处理后的中文文本所包含的分句,以及所包含分句的分词结果;
对于各分句,利用姓用字表,确定该分句的分词结果中的姓用字;
对于出现所述姓用字的各分句,基于预设的词汇相关性策略,确定出现所述姓用字的该分句中的姓名候选词;
从所述姓名候选词中提取姓名词,得到所获取的中文文本的中文姓名词汇表。
第二方面,本发明实施例提供了一种中文姓名的识别装置,包括:
文本获取模块,用于获取中文文本;
文本处理模块,用于对所述中文文本进行预处理和分词,得到预处理后的中文文本所包含的分句,以及所包含分句的分词结果;
姓用字确定模块,用于对于各分句,利用姓用字表,确定该分句的分词结果中的姓用字;
第一姓名候选词确定模块,用于对于出现所述姓用字的各分句,基于预设的词汇相关性策略,确定出现所述姓用字的该分句中的姓名候选词;
姓名词提取模块,用于从所述姓名候选词中提取姓名词,得到所获取的中文文本的中文姓名词汇表。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京锐安科技有限公司,未经北京锐安科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510881661.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种中压多芯电缆中间接头
- 下一篇:一种应用于水电机组无线应力测量的环形天线