[发明专利]一种实体信息识别方法在审
申请号: | 201811365914.2 | 申请日: | 2018-11-16 |
公开(公告)号: | CN109492114A | 公开(公告)日: | 2019-03-19 |
发明(设计)人: | 龙炳林;陆丰勤 | 申请(专利权)人: | 南京茂毓通软件科技有限公司 |
主分类号: | G06F16/36 | 分类号: | G06F16/36 |
代理公司: | 南京苏高专利商标事务所(普通合伙) 32204 | 代理人: | 饶欣 |
地址: | 210000 江苏省南京市雨*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 实体信息 决策过程 属性映射 对齐 实体数据 数据类型 数据信息 业务元素 归并 建模 溯源 决策 关联 灵活 统一 | ||
本发明公开了一种实体信息识别方法,包括:属性映射过程:将不同数据类型中表达同一个信息的数据进行关联和计算,将数据信息的含义、值域和约束进行统一;属性决策过程:对不同数据中属性的值可能不同的情况进行决策;实体对齐过程:对数据根据业务元素进行建模。本发明通过属性映射过程、属性决策过程和实体对齐过程,使得实体信息具有可溯源和灵活决策的特点,并且可以对实体数据进行归并,增加实体信息的完整性。
技术领域
本发明涉及业务数据处理,特别是涉及一种实体信息识别方法。
背景技术
在现实信息应用系统中如:多媒体、社交网络、物联网等诸多领域每天都积累了zb级的大数据。这些数据信息丰富多样,记录形式也多种多样。因此在给定的大数据集中准确发现属于同一实体的不同记录并将其聚合在一起,使得每个实体簇在现实世界中表示同一对象这一过程显得尤为重要。传统的业务数据处理方法,同一种数据类型中根据唯一标识确定了唯一的实体,将实体相关的各项信息简单合并在一起,未对同种数据类型不同格式或者不同数据类型中的信息进行识别合并,不贴近用户的业务需求,这种情况下,同一实体在现实世界的行为和关系数据也无法进行聚合。在分析实体时,实体的重要信息无法全部进行关联,难以适应新的业务需求,后续分析往往仍需要大量的开发工作。究其原因,主要是因为在不同的数据源类型中,通过多种多样的形式记录数据,传统的方法对不同数据源中的数据未进行聚合,导致同一实体的信息分散,并没有从业务本身的需要出发,对数据进行完整性的管理。
发明内容
发明目的:本发明的目的是提供一种实体信息识别方法,能够对同种数据类型不同格式或者不同数据类型中的信息进行识别合并。
技术方案:本发明所述的实体信息识别方法,包括:
属性映射过程:将不同数据类型中表达同一个信息的数据进行关联和计算,将数据信息的含义、值域和约束进行统一;
属性决策过程:对不同数据中属性的值可能不同的情况进行决策;
实体对齐过程:对数据根据业务元素进行建模。
进一步,所述属性映射过程包括以下步骤:
S11:根据业务应用的需要,建立实体的本体模型;
S12:根据实体的本体模型,建立实体属性与数据属性的映射关系;
S13:根据实体属性与数据属性的映射关系,将实体信息从数据中抽取出来,进行属性转换,构建成一个个单独的实体实例。
进一步,所述属性决策过程包括以下步骤:
S21:寻找实体原属性;
S22:比较步骤S13得到的转换后的实体属性的可信度与实体原属性的可信度:如果步骤S13得到的转换后的实体属性的可信度大于或等于实体原属性的可信度,则进入步骤S25;否则,进入步骤S23;
S23:比较步骤S13得到的转换后的实体属性的时间与实体原属性的时间:如果步骤S13得到的转换后的实体属性的时间晚于实体原属性的时间,则进入步骤S25;否则,进入步骤S24;
S24:比较步骤S13得到的转换后的实体属性的使用频次与实体原属性的使用频次:如果步骤S13得到的转换后的实体属性的使用频次高于实体原属性的使用频次,则进入步骤S25;否则,进入步骤S26;
S25:更新实体的属性值和属性来源;
S26:结束。
进一步,所述属性决策过程采用人为可信度决策、时序决策和使用频率决策中的一种或多种决策依据。
进一步,所述实体对齐过程包括以下步骤:
S31:根据分区字段和方式对实体进行分区,构建由多个实体对组成的实体对集合;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京茂毓通软件科技有限公司,未经南京茂毓通软件科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811365914.2/2.html,转载请声明来源钻瓜专利网。