[发明专利]一种计算企业实际经营地的方法在审
申请号: | 202110330113.8 | 申请日: | 2021-03-26 |
公开(公告)号: | CN112989166A | 公开(公告)日: | 2021-06-18 |
发明(设计)人: | 唐杰;徐超;陈雨馨;梁协君 | 申请(专利权)人: | 杭州有数金融信息服务有限公司 |
主分类号: | G06F16/953 | 分类号: | G06F16/953;G06F40/20 |
代理公司: | 北京崇智知识产权代理有限公司 11605 | 代理人: | 马良 |
地址: | 310000 浙江省杭州*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 计算 企业 实际 经营 方法 | ||
本申请提供了一种计算企业实际经营地址的方法,通过已训练的地址信息提取模型从目标企业地址提取省市区县等详细结构化数据;通过已训练的行政区划映射模型将提取到的省市区县等详细结构化数据映射成标准规范的行政区划描述数据;基于从企业地址提取到并映射后的标准规范行政区划描述数据,计算该地址的初始得分;基于目标企业地址的发布日期,并结合衰减函数计算该地址的实际得分;输出得分最高的对应的地址就是该企业的实际经营地址(如果得分最高对应的地址有多个,则输出发布日期最近的地址)。
技术领域
本方法涉及文本处理技术领域,特别是涉及一种根据企业多个来源地址提取企业实际经营地的方法。
背景技术
企业在公开数据源上发布的地址往往会存在以下几个问题:
1.企业基本信息中发布的地址往往是注册地址,通常与经营地址会存在一定的出入;
2.年报中发布的地址是企业自主公示,并且更新频率比较低,通常情况下为1年更新一次;
3.招聘网站发布的地址虽然更新比较频繁,但由于发布数量较多,经手人员较多,导致同一个地址可能出现简写,错写,漏写等描述方式不统一的问题;
当用户想要通过以上所诉数据来源,获得该企业的实际经营地址时,通常的做法是,首先是通过人工审查,一一核实,排除掉难以得出真实位置的地址,然后在剩下的地址中,通过地址描述的详细程度以及该地址的发布日期以甄别出该企业的实际经营地址。然而,该种方法需要耗费大量的人力物力,且
核实过程会耗费大量的时间,存在分析过程效率低下的问题。
发明内容
基于此,有必要针对上诉技术问题,提供一种能够提高分析效率的提取企业实际经营地址的方法,它能够在用户查询某企业的实际经营地址时,通过对从多个公开数据来源网站中获取到的地址进行合理的分析,以计算出该企业的实际经营地址。
为了实现以上目的,本方法采用的技术方案是:一种计算企业实际经营地的方法,利用从多个公开数据来源网站中获取到的地址进行分析,先从地址长度,有无省市县等关键字,这些方面入手过滤掉无法定位到企业实际经营位置且可能会对最后计算的结果产生影响或者没有多大意义的地址;然后通过已经训练好的模型从地址中提取关键的地址信息,并映射为标准规范的行政区划描述;最后结合经过大量实验调整为最优权重的公式计算出每个企业地址的得分,输出得分最高且发布日期最近的地址即为该企业的实际经营地址。
整个方案的具体实施步骤如下:
1.从多个来源获取企业的地址及其地址的发布日期,并对这些地址进行清洗,以过滤掉长度不够的地址,没有xx省或xx市或xx县等这种重要关键字的地址,只有xx省xx市xx县等这种没有意义的地址;
2.通过已经训练好的地址信息提取模型从上述1中清洗后的地址提取到关键的地址信息;
3.通过已经训练好的行政区划映射模型从上诉2中提取到的地址信息映射为标准规范的行政区划描述;
4.通过经过大量实验并调整好权重的企业地址初始得分公式和上诉3中标准规范的行政区划描述,计算每个企业地址的初始得分;
5.通过企业地址最终得分公式和上诉4中的企业地址初始得分以及该企业地址的发布日期,计算出每个企业地址的最终得分;
6.输出得分最高且发布日期最近的地址就是该企业的实际经营地址。
附图说明
图1为方案具体实施流程图。
具体实施方式
为了使本申请的目的,技术方案及优点更加清楚明白,以下结合实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,应当理解,本申请中附图仅起到说明和描述的目的,并不用于限定本申请的保护范围。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州有数金融信息服务有限公司,未经杭州有数金融信息服务有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110330113.8/2.html,转载请声明来源钻瓜专利网。