[发明专利]自动识别中文姓名的方法在审
申请号: | 201610753576.4 | 申请日: | 2016-08-29 |
公开(公告)号: | CN106354713A | 公开(公告)日: | 2017-01-25 |
发明(设计)人: | 陈运文;纪达麒;桂洪冠;江永青;张健 | 申请(专利权)人: | 达而观信息科技(上海)有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 北京卓唐知识产权代理有限公司11541 | 代理人: | 龚洁 |
地址: | 200000 上海市浦*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及计算机应用技术领域,具体涉及自动识别中文姓名的方法。本发明包括标注数据训练部分和人名识别部分。本发明不需要穷举人名,而是通过算法自动识别人名中文人名的组合极多,而且每时每刻都有新增的人名,直接将所有人名加入词典显然是不可能实现的。自动根据上下文来判断人名姓名的分布受上下文影响很大。另外,还有一些生僻的中文姓名,给自动人名识别带来了很大的困难。通过本发明专利的方法,可以全面解决上述复杂情况的识别。 | ||
搜索关键词: | 自动识别 中文 姓名 方法 | ||
【主权项】:
自动识别中文姓名的方法,其特征在于,包括如下两步骤:第一步,标注数据训练部分;第二步,人名识别部分;第一步所述的标注数据训练部分包括如下步骤:A.将单字按照出现的位置划分为以下类型:1 H_1:出现在中文人名的首部/Head;2 M_1:出现在中文人名的中间/Middle;3 T_1:出现在中文人名的尾部/Tail;4 N_1:未出现在中文人名的以上任何位置/None;5统计所有单字在以上4种类型中的数量,并计算概率;对单字w_i来说,其条件概率分别为:P(H_1|w_i),P(M_1|w_i),P(T_1|w_i),P(N_1|w_i),B.将双字按照出现的位置划分为以下类型:1 H_2:出现在中文人名首部的双字复姓/Head;2 HM_2:2字人名,但是后面如果再跟一个汉字的话很可能构成3子人名/Head+Middle;3 MT_2:经常作3字中国人名的2字词语;4 N_2:未出现在中文人名的以上任何位置/None;所述对2 HM_2和3 MT_2两种类型,抽取方法为在全部人名中,出现频次高于阈值β的组合;5统计所有双字在以上4类情况中的数量,并计算概率;对双字w_i来说,条件概率分别为:P(H_2|w_i),P(HM_2|w_i),P(MT_2|w_i),P(N_2|w_i),对在以上4类情况中出现的双字组合和以上概率值,构成词典DoubleWord_Dict;C.通过贝叶斯概率公式近似计算单字和双字出现概率,P(w_i|H_1)=P(H_1|w_i)P(w_i)Σi=1NP(H_1|w_i)P(w_i),]]>其中N为所有出现在H_1位置的单字的总数;类似的,可以得到单字在所有可能位置的概率:P(w_i|M_1),P(w_i|T_1),P(w_i|N_1),和双字的所有概率:P(w_i|H_2),P(w_i|HM_2),P(w_i|MT_2),P(w_i|N_2),第二步所述的人名识别部分包括如下步骤:A.初始化,候选的文本串;B.判断当前词是否为DoubleWord_dict中类型为H_2或者HM_2的双字词;假如是H_2或者HM_2的双字词,设置d1为该双字词,取对应的条件概率数值,并进入步骤3:假如不是H_2或者HM_2的双字词,则进行步骤3:C.判断当前词是否为单字中类型为H_1的词;如果不是类型为H_1的词,则认为当前词非人名,继续沿文本向前遍历,直至文本结束;如果为是类型为H_1的词,则设置d1为该单字,取对应的单字条件概率,并进入步骤4;D.判断d1后紧接的两汉字是否为Doubleword_dict中类型为MT_2中出现的双字名;如果出现双字名,则设置MT_2的对应双字为d2,并取对应概率,进入二阶贝叶斯概率人名判断模块,即进入F步;如果不出现双字名,则分别取其后的连续两字,设置为d2、d3,将d1、d2、d3送入三阶人名判断模块,即进入G步;E.如果上述判断仍然为否,则将d1、d2送入二阶人名判断模块;F.二阶贝叶斯概率人名判断模块;G.三阶贝叶斯概率人名判断模块;H.结束。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于达而观信息科技(上海)有限公司,未经达而观信息科技(上海)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610753576.4/,转载请声明来源钻瓜专利网。
- 上一篇:多功能控时淬火设备
- 下一篇:一种使钢质焊接接头硬度均匀的处理方法