[发明专利]一种组织机构单位规范化方法、装置、设备及存储介质有效
申请号: | 201911303535.5 | 申请日: | 2019-12-17 |
公开(公告)号: | CN111160011B | 公开(公告)日: | 2023-06-27 |
发明(设计)人: | 李保敏;刘伟棠;何林强 | 申请(专利权)人: | 浙江大华技术股份有限公司 |
主分类号: | G06F16/9537 | 分类号: | G06F16/9537;G06F16/29;G06F40/216;G06F18/22 |
代理公司: | 北京同达信恒知识产权代理有限公司 11291 | 代理人: | 赵凯莉 |
地址: | 310053 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 组织机构 单位 规范化 方法 装置 设备 存储 介质 | ||
本发明公开了一种组织机构单位规范化方法、装置、设备及存储介质,由于在本发明实施例中,在进行组织机构单位规范化时,首先根据待规范化的第一组织机构单位的第一名称信息与标准库中每个第二组织机构单位的第二名称信息的第一相似度筛选出标准库中的第一候选组织机构单位,然后再结合第一组织机构单位的第一地址信息与每个第一候选组织机构单位的第二地址信息的第二相似度,最终确定出标准库中的目标组织机构单位并进行规范化。综合名称信息和地址信息两方面计算相似度确定目标组织机构单位并进行规范化,使得组织机构单位规范化的准确性较高,并且本发明实施例无需人工选取特定的参数,因而降低了对于使用人员的技术要求。
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种组织机构单位规范化方法、装置、设备及存储介质。
背景技术
目前公安、消防等相关部门每天会收到大量的报警信息,人们报警时,不同的人对于同一个组织机构单位的描述方式有可能是不同的。例如某个组织机构单位可能会有以下几种描述情况:“某省某市某区某路某号”,“某省某市某区某酒店对过”,“某省某市某区某路某某路的交叉口”。不同的描述方式对于相关部门工作人员的行动带来了不便,因此需要将报警信息中的组织机构单位进行规范化以便于相关部门工作人员开展工作。
现有技术中在进行组织机构单位规范化处理时,一般包括以下方法:
1、引入地区、类别和命名特征,并设计相关规则,采用规则与编辑距离混合使用的策略进行机构名称匹配。该方法存在的问题是,需要人工选取特定参数,对人员的技术要求较高。
2、采用编辑距离算法对机构名称进行初步聚类,基于初步聚类结果,采用K-means算法对名称进行聚类,对每一类赋予固定标识符。该方法存在的问题是,采用K-means算法进行聚类,此算法中K值的选取会对算法效果有较大的影响,对于使用人员有较高的门槛,同样,距离编辑算法会根据不同的距离度量标准产生不同的结果,方法准确性较低。
发明内容
本发明实施例提供了一种组织机构单位规范化方法、装置、设备及存储介质,用以解决现有技术中组织机构单位规范化方法对人员要求较高,并且准确性较低的问题。
本发明实施例提供了一种组织机构单位规范化方法,所述方法包括:
识别待规范化的第一组织机构单位的第一名称信息,计算所述第一名称信息与标准库中每个第二组织机构单位的第二名称信息的第一相似度,将所述第一相似度大于预设的第一阈值的第二组织机构单位作为第一候选组织机构单位;
识别所述第一组织机构单位的第一地址信息,计算所述第一地址信息与每个第一候选组织机构单位的第二地址信息的第二相似度;
根据每个第二相似度在所述每个第一候选组织机构单位中确定目标组织机构单位,将所述第一组织机构单位规范化为所述目标组织机构单位。
进一步地,所述计算所述第一名称信息与标准库中每个第二组织机构单位的第二名称信息的第一相似度包括:
根据TF-IDF算法,计算所述第一名称信息与标准库中每个第二组织机构单位的第二名称信息的第一相似度。
进一步地,所述计算所述第一地址信息与每个第一候选组织机构单位的第二地址信息的第二相似度包括:
根据python-difflib算法,计算所述第一地址信息与每个第一候选组织机构单位的第二地址信息的第二相似度。
进一步地,所述根据每个第二相似度在所述每个第一候选组织机构单位中确定目标组织机构单位包括:
根据每个第一候选组织机构单位对应的第一相似度、第二相似度以及预设的权重值,计算每个第一候选组织机构单位对应的综合相似度,根据每个第一候选组织机构单位对应的综合相似度,确定目标组织机构单位。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大华技术股份有限公司,未经浙江大华技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911303535.5/2.html,转载请声明来源钻瓜专利网。