[发明专利]人名识别方法及相关装置有效
申请号: | 201910627361.1 | 申请日: | 2019-07-12 |
公开(公告)号: | CN110489727B | 公开(公告)日: | 2023-07-07 |
发明(设计)人: | 王宝岩;文博;步君昭;刘云峰 | 申请(专利权)人: | 深圳追一科技有限公司 |
主分类号: | G06F40/117 | 分类号: | G06F40/117;G06F40/289;G06N3/0464;G06N3/08 |
代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 郝传鑫;熊永强 |
地址: | 518054 广东省深圳市南山区粤海*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 人名 识别 方法 相关 装置 | ||
1.一种人名识别方法,其特征在于,所述方法包括:
获取输入文本的分词文本和分字文本;
获取所述分词文本中每个词组的词向量,以及获取所述分字文本中的每个字的字向量;
根据所述每个词组的词向量和所述每个字的字向量,采用预设的人名确定模型,其中,所述预设的人名确定模型包括至N个标注模型和评分网络,N为正整数,确定出所述输入文本中的第一目标人名,具体包括:
根据所述每个词组的词向量和所述每个字的字向量,采用所述N个标注模型对所述输入文本进行标注,得到与所述N个标注模型中的每个标注模型相对应的目标人名标注结果,所述目标人名标注结果为所述分字文本中的每个字的人名标注结果;
将所述输入文本按照所述目标人名标注结果进行PER替换,确定出与所述N个标注模型中的每个标注模型相对应的文本,得到N个参考文本;
根据所述评分网络中的M个子评分模型,确定出与目标参考文本相对应的M个参考结果,所述目标参考文本为所述N个参考文本中的任一个;
将所述M个参考结果进行拼接,得到目标结果;
根据所述评分网络中的全连接层,确定出所述目标结果对应的评分值;
根据所述参考文本对应的概率值和所述目标结果对应的评分值,确定出所述目标参考文本的参考评分值,所述目标参考文本的参考评分值可以通过以下公式得到:
其中,为所述目标参考文本的参考评分值,s(ci)为目标结果对应的评分值,α为调节因子,p(ci)目标参考文本对应的概率值,α可以通过经验值或历史数据设定;
重复执行上述确定目标参考文本的参考评分值的方法,直至确定出所述N个参考文本中每个参考文本的参考评分值;
获取目标文本,所述目标文本为所述N个参考文本中参考评分值最高的文本;
将所述目标文本中的人名确定为所述第一目标人名。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
通过目标函数训练得到所述评分网络;其中,所述目标函数为:
其中,θ为神经网络的参数集合,D为训练集,γ为正则化因子,yi、ci为训练集中的元素,s(ci)为参考评分值。
3.根据权利要求1或2所述的方法,其特征在于,所述方法还包括:
通过校正字典获取所述输入文本的第二目标人名;
根据所述第一目标人名和所述第二目标人名,确定出所述输入文本中的人名。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳追一科技有限公司,未经深圳追一科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910627361.1/1.html,转载请声明来源钻瓜专利网。