[发明专利]数据处理方法、装置、电子设备及存储介质在审
申请号: | 202110556281.9 | 申请日: | 2021-05-21 |
公开(公告)号: | CN113420595A | 公开(公告)日: | 2021-09-21 |
发明(设计)人: | 孙凯 | 申请(专利权)人: | 北京达佳互联信息技术有限公司 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/32;G06K9/62 |
代理公司: | 北京润泽恒知识产权代理有限公司 11319 | 代理人: | 李娜 |
地址: | 100085 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据处理 方法 装置 电子设备 存储 介质 | ||
本公开示出了一种数据处理方法、装置、电子设备及存储介质,首先获取多个数据源的兴趣点信息;然后根据兴趣点信息,计算两个兴趣点在预设维度上的相似度;之后将两个兴趣点在一个或多个预设维度上的相似度输入预先训练得到的分类模型,得到两个兴趣点的相似概率,分类模型是基于两个样本兴趣点在一个或多个预设维度上的相似度以及两个样本兴趣点是否表示同一实体的标签训练得到,相似概率用于表征两个兴趣点表示同一实体的概率;根据两个兴趣点的相似概率,对多个兴趣点进行聚类,得到兴趣点集合;从兴趣点集合中选取表示实体的目标兴趣点。本方案可以获得准确率高且与实体对应的目标兴趣点,提高多个数据源在融合过程中的鲁棒性和准确性。
技术领域
本公开涉及计算机技术领域,尤其涉及一种数据处理方法、装置、电子设备及存储介质。
背景技术
兴趣点(POI,Point of Information),又名信息点,是电子地图上的某个地标、景点,用以标示出该兴趣点所代表的政府部门、各行各业之商业机构(加油站、百货公司、超市、餐厅、酒店、便利商店、医院等)、旅游景点(公园、公共厕所等)、古迹名胜、交通设施(各式车站、停车场)等处所。
相关技术中,在用户搜索兴趣点或根据兴趣点分析信息的场景下,使用单一数据源时兴趣点覆盖率不够高,导致用户所需要的目标兴趣点不在数据库中;而采用多个数据源时,又会出现同一个兴趣点有重复描述的问题。
发明内容
本公开提供一种数据处理方法、装置、电子设备及存储介质,以至少解决相关技术中仅使用单一数据源时兴趣点覆盖率不够高,导致用户所需要的目标兴趣点不在数据库中,而采用多个数据源时又会出现同一个兴趣点有重复描述的问题。本公开的技术方案如下:
根据本公开的第一方面,提供一种数据处理方法,所述方法包括:
获取多个数据源的兴趣点信息;
根据所述兴趣点信息,计算两个兴趣点在预设维度上的相似度,所述预设维度包括以下至少之一:地理维度,名称维度,地址维度和特征维度;
将所述两个兴趣点在一个或多个所述预设维度上的相似度输入预先训练得到的分类模型,得到所述两个兴趣点的相似概率,所述分类模型是基于两个样本兴趣点在一个或多个所述预设维度上的相似度以及所述两个样本兴趣点是否表示同一实体的标签训练得到,所述相似概率用于表征所述两个兴趣点表示同一实体的概率;
根据所述两个兴趣点的相似概率,对多个兴趣点进行聚类,得到兴趣点集合;
从所述兴趣点集合中选取表示所述实体的目标兴趣点。
在一种可选的实现方式中,所述兴趣点信息包括兴趣点的名称信息,所述预设维度包括名称维度,所述两个兴趣点包括第一兴趣点和第二兴趣点,所述根据所述兴趣点信息,计算两个兴趣点在预设维度上的相似度的步骤,包括:
识别所述第一兴趣点的名称信息表征的实体,得到所述第一兴趣点的第一实体信息;
识别所述第二兴趣点的名称信息表征的实体,得到所述第二兴趣点的第二实体信息;
若所述第一实体信息与所述第二实体信息相同,则计算所述第一兴趣点的名称信息和所述第二兴趣点的名称信息之间的相似度,获得所述第一兴趣点和所述第二兴趣点在名称维度上的相似度。
在一种可选的实现方式中,所述计算所述第一兴趣点的名称信息和所述第二兴趣点的名称信息之间的相似度的步骤,包括:
获取所述第一兴趣点的名称信息对应的第一向量;
获取所述第二兴趣点的名称信息对应的第二向量;
计算所述第一向量与所述第二向量之间的距离,得到所述第一兴趣点的名称信息和所述第二兴趣点的名称信息之间的相似度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京达佳互联信息技术有限公司,未经北京达佳互联信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110556281.9/2.html,转载请声明来源钻瓜专利网。