[发明专利]自动识别中文姓名的方法在审

专利信息
申请号: 201610753576.4 申请日: 2016-08-29
公开(公告)号: CN106354713A 公开(公告)日: 2017-01-25
发明(设计)人: 陈运文;纪达麒;桂洪冠;江永青;张健 申请(专利权)人: 达而观信息科技(上海)有限公司
主分类号: G06F17/27 分类号: G06F17/27
代理公司: 北京卓唐知识产权代理有限公司11541 代理人: 龚洁
地址: 200000 上海市浦*** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要: 本发明涉及计算机应用技术领域,具体涉及自动识别中文姓名的方法。本发明包括标注数据训练部分和人名识别部分。本发明不需要穷举人名,而是通过算法自动识别人名中文人名的组合极多,而且每时每刻都有新增的人名,直接将所有人名加入词典显然是不可能实现的。自动根据上下文来判断人名姓名的分布受上下文影响很大。另外,还有一些生僻的中文姓名,给自动人名识别带来了很大的困难。通过本发明专利的方法,可以全面解决上述复杂情况的识别。
搜索关键词: 自动识别 中文 姓名 方法
【主权项】:
自动识别中文姓名的方法,其特征在于,包括如下两步骤:第一步,标注数据训练部分;第二步,人名识别部分;第一步所述的标注数据训练部分包括如下步骤:A.将单字按照出现的位置划分为以下类型:1 H_1:出现在中文人名的首部/Head;2 M_1:出现在中文人名的中间/Middle;3 T_1:出现在中文人名的尾部/Tail;4 N_1:未出现在中文人名的以上任何位置/None;5统计所有单字在以上4种类型中的数量,并计算概率;对单字w_i来说,其条件概率分别为:P(H_1|w_i),P(M_1|w_i),P(T_1|w_i),P(N_1|w_i),B.将双字按照出现的位置划分为以下类型:1 H_2:出现在中文人名首部的双字复姓/Head;2 HM_2:2字人名,但是后面如果再跟一个汉字的话很可能构成3子人名/Head+Middle;3 MT_2:经常作3字中国人名的2字词语;4 N_2:未出现在中文人名的以上任何位置/None;所述对2 HM_2和3 MT_2两种类型,抽取方法为在全部人名中,出现频次高于阈值β的组合;5统计所有双字在以上4类情况中的数量,并计算概率;对双字w_i来说,条件概率分别为:P(H_2|w_i),P(HM_2|w_i),P(MT_2|w_i),P(N_2|w_i),对在以上4类情况中出现的双字组合和以上概率值,构成词典DoubleWord_Dict;C.通过贝叶斯概率公式近似计算单字和双字出现概率,P(w_i|H_1)=P(H_1|w_i)P(w_i)Σi=1NP(H_1|w_i)P(w_i),]]>其中N为所有出现在H_1位置的单字的总数;类似的,可以得到单字在所有可能位置的概率:P(w_i|M_1),P(w_i|T_1),P(w_i|N_1),和双字的所有概率:P(w_i|H_2),P(w_i|HM_2),P(w_i|MT_2),P(w_i|N_2),第二步所述的人名识别部分包括如下步骤:A.初始化,候选的文本串;B.判断当前词是否为DoubleWord_dict中类型为H_2或者HM_2的双字词;假如是H_2或者HM_2的双字词,设置d1为该双字词,取对应的条件概率数值,并进入步骤3:假如不是H_2或者HM_2的双字词,则进行步骤3:C.判断当前词是否为单字中类型为H_1的词;如果不是类型为H_1的词,则认为当前词非人名,继续沿文本向前遍历,直至文本结束;如果为是类型为H_1的词,则设置d1为该单字,取对应的单字条件概率,并进入步骤4;D.判断d1后紧接的两汉字是否为Doubleword_dict中类型为MT_2中出现的双字名;如果出现双字名,则设置MT_2的对应双字为d2,并取对应概率,进入二阶贝叶斯概率人名判断模块,即进入F步;如果不出现双字名,则分别取其后的连续两字,设置为d2、d3,将d1、d2、d3送入三阶人名判断模块,即进入G步;E.如果上述判断仍然为否,则将d1、d2送入二阶人名判断模块;F.二阶贝叶斯概率人名判断模块;G.三阶贝叶斯概率人名判断模块;H.结束。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于达而观信息科技(上海)有限公司,未经达而观信息科技(上海)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201610753576.4/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top