[发明专利]一种用于实体匹配的词向量训练方法与系统有效
申请号: | 202011503759.3 | 申请日: | 2020-12-18 |
公开(公告)号: | CN112632971B | 公开(公告)日: | 2023-08-25 |
发明(设计)人: | 白强伟;黄艳香 | 申请(专利权)人: | 上海明略人工智能(集团)有限公司 |
主分类号: | G06F40/253 | 分类号: | G06F40/253;G06F40/279;G06F40/295 |
代理公司: | 青岛清泰联信知识产权代理有限公司 37256 | 代理人: | 李红岩 |
地址: | 200030 上海市徐汇区*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 用于 实体 匹配 向量 训练 方法 系统 | ||
本发明公开了一种用于实体匹配的词向量训练方法与系统,所述方法包括:将第一实体集合、第二实体集合中的所有相同属性划分为数值型、类别型和文本型,并将相同类型的属性加入到同一集合中,生成数值型属性集合、类别型属性集合和文本型属性集合;将第一实体集合和第二实体集合中相同数值型属性的值进行合并、去重、排序和采样,将采样的结果加入到训练样本集合中;将相同类别型属性的值进行合并、计数和采样,将采样的结果加入到训练样本集合中;将所有文本属性的属性值作为单独的样本加入到训练样本集合中;将每个实体的所有属性值拼接起来作为单独的样本加入到训练样本集合中;通过训练样本集合训练词向量。
技术领域
本发明涉及数据分析技术领域,尤其涉及一种用于实体匹配的词向量训练方法与系统。
背景技术
目前,各种各样的领域都在产生着大量的数据,例如电商、社交、出行、餐饮等等。这些数据中包含着大量有价值的信息,这些信息可以帮助企业提升运行效率、改善用户体验。但是,在大数据时代如何更好的利用这些数据面临着一个巨大的挑战,那就是多源数据集成。由于各个企业,甚至是同一企业的各个部门均会按照自己的需求来建立独立的数据库,而这些数据库之间很可能会存在冗余的信息。因此,将多个不同来源、不同形式的数据库集成在一起,提供统一的数据视图有着重要的价值。
在数据集成的领域中存在着一个重要的问题,称为实体匹配(Entity Matching)或者实体消解(Entity Resolution)。实体匹配的目标是确定数据库中的两个实体是否指向现实世界中的同一实体。例如:给定两个实体,分别为实体1(姓名:张三,年龄:30,住址:北京市朝阳区,职业:程序员)、实体2(姓名:张三,年龄:31,住址:北京市海淀区,职业:程序员)。那么实体1和实体2是否指的是同一个人呢?这就是实体匹配面临的问题。
在自然语言处理领域,数字不是十分常见且通常也不会显著的影响各类自然语言处理任务。但是在实体匹配领域,通常会包含许多的数值列,这些列中的数字有可能极大的影响匹配结果。例如两个产品的价格如果相差极大,那么不论这些产品的其他信息如何的相近,其很大概率都不是同一款产品。目前的词向量方法并不能有效的提供数字的向量表示。举例来说,与数字“1”词向量最相近的词向量是数字“11”,而不是数字“2”。显然,这样的词向量很难为实体匹配提供帮助,甚至还会影响实体匹配的结果。
另外,在实体匹配中存在着许多列,其保存的信息只是较短的单词,例如姓名、产品品牌等,这里将这些词统称为类别词。这些单词有一个明显的特征,即其表示的形式和内容与其所在的列具有相当大的相关性。目前的词向量训练方法并没有将这部分的信息考虑进来。
发明内容
本发明针对现有技术的不足,提出一种用于实体匹配的词向量训练方法与系统。
第一方面,本申请实施例提供了一种用于实体匹配的词向量训练方法,包括:
属性类型划分步骤:将第一实体集合、第二实体集合中的所有相同属性划分为数值型、类别型和文本型,并将相同类型的属性加入到同一集合中,生成数值型属性集合、类别型属性集合和文本型属性集合;
数值型样本生成步骤:将所述第一实体集合和所述第二实体集合中相同数值型属性的值进行合并、去重、排序和采样,并将采样的结果加入到训练样本集合中;
类别型样本生成步骤:将所述第一实体集合和所述第二实体集合中相同类别型属性的值进行合并、计数和采样,并将采样的结果加入到所述训练样本集合中;
文本型样本生成步骤:将所述第一实体集合和所述第二实体集合中所有文本属性的属性值作为单独的样本加入到所述训练样本集合中;
实体样本生成步骤:将所述第一实体集合和所述第二实体集合中每个实体的所有属性值拼接起来作为单独的样本加入到所述训练样本集合中;
词向量训练步骤:通过所述训练样本集合训练词向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海明略人工智能(集团)有限公司,未经上海明略人工智能(集团)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011503759.3/2.html,转载请声明来源钻瓜专利网。