[发明专利]一种组织机构单位规范化方法、装置、设备及存储介质有效
申请号: | 201911303535.5 | 申请日: | 2019-12-17 |
公开(公告)号: | CN111160011B | 公开(公告)日: | 2023-06-27 |
发明(设计)人: | 李保敏;刘伟棠;何林强 | 申请(专利权)人: | 浙江大华技术股份有限公司 |
主分类号: | G06F16/9537 | 分类号: | G06F16/9537;G06F16/29;G06F40/216;G06F18/22 |
代理公司: | 北京同达信恒知识产权代理有限公司 11291 | 代理人: | 赵凯莉 |
地址: | 310053 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 组织机构 单位 规范化 方法 装置 设备 存储 介质 | ||
1.一种组织机构单位规范化方法,其特征在于,所述方法包括:
识别待规范化的第一组织机构单位的第一名称信息,计算所述第一名称信息与标准库中每个第二组织机构单位的第二名称信息的第一相似度,将所述第一相似度大于预设的第一阈值的第二组织机构单位作为第一候选组织机构单位;
识别所述第一组织机构单位的第一地址信息,计算所述第一地址信息与每个第一候选组织机构单位的第二地址信息的第二相似度;
根据每个第二相似度在所述每个第一候选组织机构单位中确定目标组织机构单位,将所述第一组织机构单位规范化为所述目标组织机构单位;
其中,所述根据每个第二相似度在所述每个第一候选组织机构单位中确定目标组织机构单位包括:
根据每个第一候选组织机构单位对应的第一相似度、第二相似度以及预设的权重值,计算每个第一候选组织机构单位对应的综合相似度,根据每个第一候选组织机构单位对应的综合相似度,确定目标组织机构单位;
所述根据每个第一候选组织机构单位对应的综合相似度,确定目标组织机构单位包括:
将所述综合相似度大于预设的第二阈值的第一候选组织机构单位作为第二候选组织机构单位;
当所述第一地址信息和每个第二候选组织机构单位的第三地址信息中均包含数字符号时,针对每个第三地址信息,判断该第三地址信息中的数字符号与所述第一地址信息中的数字符号是否相同,如果是,保留该第三地址信息,如果否,滤除该第三地址信息;
根据保留的每个第三地址信息对应的第二候选组织机构单位对应的综合相似度,确定目标组织机构单位;
所述根据保留的每个第三地址信息对应的第二候选组织机构单位对应的综合相似度,确定目标组织机构单位包括:
将保留的第二候选组织机构单位作为第三候选组织机构单位;
针对每个第三候选组织机构单位,判断该第三候选组织机构单位是否为预设类别的组织机构单位,如果是,将所述第一名称信息与该第三候选组织机构单位的第三名称信息进行对应位置的字符匹配,从首个非相同字符处向后截取所述第一名称信息与该第三名称信息的字符,得到第四名称信息和第五名称信息;根据所述第四名称信息与第五名称信息的第三相似度、所述第一地址信息与该第三候选组织机构单位的第二地址信息的第二相似度以及预设的权重值,计算该第三候选组织机构单位对应的综合相似度;判断所述综合相似度是否大于预设的第三阈值,如果是,保留该第三候选组织机构单位,如果否,滤除该第三候选组织机构单位;
根据保留的每个第三候选组织机构单位对应的综合相似度,确定目标组织机构单位。
2.如权利要求1所述的方法,其特征在于,所述计算所述第一名称信息与标准库中每个第二组织机构单位的第二名称信息的第一相似度包括:
根据TF-IDF算法,计算所述第一名称信息与标准库中每个第二组织机构单位的第二名称信息的第一相似度。
3.如权利要求1所述的方法,其特征在于,所述计算所述第一地址信息与每个第一候选组织机构单位的第二地址信息的第二相似度包括:
根据python-difflib算法,计算所述第一地址信息与每个第一候选组织机构单位的第二地址信息的第二相似度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大华技术股份有限公司,未经浙江大华技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911303535.5/1.html,转载请声明来源钻瓜专利网。