[发明专利]基于政务数据的姓名特征识别系统在审
申请号: | 201910801931.4 | 申请日: | 2019-08-28 |
公开(公告)号: | CN110609928A | 公开(公告)日: | 2019-12-24 |
发明(设计)人: | 华岗;王华飞;徐振 | 申请(专利权)人: | 宁波市智慧城市规划标准发展研究院;宁波中数云创信息技术有限公司 |
主分类号: | G06F16/903 | 分类号: | G06F16/903;G06F16/901 |
代理公司: | 11466 北京君恒知识产权代理事务所(普通合伙) | 代理人: | 黄启行 |
地址: | 315040 浙江省宁波市鄞州*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 属性描述 列数据 匹配 数据集中 姓名特征 数据集 聚类 姓氏 测试 处理效率 识别系统 数据形成 随机提取 姓名模型 字符提取 自定义 预测 字段 判定 标签 提炼 归纳 | ||
1.基于政务数据的姓名特征识别系统,其特征在于,包括以下几个步骤实现:
步骤A:收集政务数据形成政务数据集,判定和识别所述政务数据集的每列数据是否包含有属性描述;
步骤B:若所述政务数据集每列数据均包含属性描述,随机提取所述属性描述作为该列数据的标签,所述标签拆分成字符元组并与自定义姓名模型进行聚类测试,得出属性权值;提取该列数据中若干数据形成新的数据集,所述新的数据集中的字段进行字符提取并与现有姓氏表进行匹配,得出匹配率;
若所述政务数据集每列数据集均未包含属性描述,则直接随机提取所述政务数据集各列数据中若干数据形成新的数据集,所述新的数据集中的字段进行字符提取并与现有姓氏表进行匹配,得出匹配率;
步骤C:根据所述匹配率与所述属性权值以一定计算公式得出属性预测率。
2.根据权利要求1中所述的基于政务数据的姓名特征识别系统,其特征在于,在步骤A中,所述属性描述是指由数据库导出的数据集中每列首行元素。
3.根据权利要求1中所述的基于政务数据的姓名特征识别系统,其特征在于,在步骤B中,所述新的数据集是指所述20%--30%的所述政务数据集。
4.根据权利要求1中所述的基于政务数据的姓名特征识别系统,其特征在于,在步骤B中,若所述匹配率小于默认匹配率,则所述属性预测率置为0;若所述匹配率大于或等于默认匹配率,则输出所述匹配率;所述默认匹配率在60%--65%之间。
5.根据权利要求1中所述的基于政务数据的姓名特征识别系统,其特征在于,若所述字符元组与所述自定义姓名模型在一簇,则所述属性权值置为默认属性权值;若所述字符元组与所述自定义姓名模型未在一簇,则所述属性权值置0。
6.根据权利要求5中所述的基于政务数据的姓名特征识别系统,其特征在于,所述默认属性权值在0.75—0.85之间。
7.根据权利要求1中所述的基于政务数据的姓名特征识别系统,其特征在于,所述现有姓氏表按照姓氏占中国人口比例从大到小分为若干个梯队。
8.根据权利要求7中所述的基于政务数据的姓名特征识别系统,其特征在于,所述若干个梯队的姓氏数量差在100—200个之间。
9.根据权利要求1或8中所述的基于政务数据的姓名特征识别系统,其特征在于,需要匹配的所述字段与所述现有姓氏表匹配顺序为,
先与所述第一梯队匹配,若需要匹配的所述字段与所述第一梯队存在匹配项,则结束,若需要匹配的所述字段与所述第一梯队不存在匹配项,则再与所述第二梯队匹配;
若需要匹配的所述字段与所述第二梯队存在匹配项,则结束,若需要匹配的所述字段与所述第二梯队不存在匹配项,再与所述第三梯队匹配;
直至需要匹配的所述字段与所述第n梯队存在匹配项,则结束,若需要匹配的所述字段与所述第n梯队不存在匹配项,则需要匹配的所述字段与现有姓氏表不存在匹配项。
10.根据权利要求1中所述的基于政务数据的姓名特征识别系统,其特征在于,在步骤C中,所述一定计算公式是指,属性预测率=属性权值×100%+匹配率×100%。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于宁波市智慧城市规划标准发展研究院;宁波中数云创信息技术有限公司,未经宁波市智慧城市规划标准发展研究院;宁波中数云创信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910801931.4/1.html,转载请声明来源钻瓜专利网。