[发明专利]一种实体信息识别方法在审

申请号：	201811365914.2	申请日：	2018-11-16
公开（公告）号：	CN109492114A	公开（公告）日：	2019-03-19
发明（设计）人：	龙炳林;陆丰勤	申请（专利权）人：	南京茂毓通软件科技有限公司
主分类号：	G06F16/36	分类号：	G06F16/36
代理公司：	南京苏高专利商标事务所(普通合伙) 32204	代理人：	饶欣
地址：	210000 江苏省南京市雨***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	实体信息决策过程属性映射对齐实体数据数据类型数据信息业务元素归并建模溯源决策关联灵活统一
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种实体信息识别方法，包括：属性映射过程：将不同数据类型中表达同一个信息的数据进行关联和计算，将数据信息的含义、值域和约束进行统一；属性决策过程：对不同数据中属性的值可能不同的情况进行决策；实体对齐过程：对数据根据业务元素进行建模。本发明通过属性映射过程、属性决策过程和实体对齐过程，使得实体信息具有可溯源和灵活决策的特点，并且可以对实体数据进行归并，增加实体信息的完整性。

技术领域

本发明涉及业务数据处理，特别是涉及一种实体信息识别方法。

背景技术

在现实信息应用系统中如：多媒体、社交网络、物联网等诸多领域每天都积累了zb级的大数据。这些数据信息丰富多样，记录形式也多种多样。因此在给定的大数据集中准确发现属于同一实体的不同记录并将其聚合在一起，使得每个实体簇在现实世界中表示同一对象这一过程显得尤为重要。传统的业务数据处理方法，同一种数据类型中根据唯一标识确定了唯一的实体，将实体相关的各项信息简单合并在一起，未对同种数据类型不同格式或者不同数据类型中的信息进行识别合并，不贴近用户的业务需求，这种情况下，同一实体在现实世界的行为和关系数据也无法进行聚合。在分析实体时，实体的重要信息无法全部进行关联，难以适应新的业务需求，后续分析往往仍需要大量的开发工作。究其原因，主要是因为在不同的数据源类型中，通过多种多样的形式记录数据，传统的方法对不同数据源中的数据未进行聚合，导致同一实体的信息分散，并没有从业务本身的需要出发，对数据进行完整性的管理。

发明内容

发明目的：本发明的目的是提供一种实体信息识别方法，能够对同种数据类型不同格式或者不同数据类型中的信息进行识别合并。

技术方案：本发明所述的实体信息识别方法，包括：

属性映射过程：将不同数据类型中表达同一个信息的数据进行关联和计算，将数据信息的含义、值域和约束进行统一；

属性决策过程：对不同数据中属性的值可能不同的情况进行决策；

实体对齐过程：对数据根据业务元素进行建模。

进一步，所述属性映射过程包括以下步骤：

S11：根据业务应用的需要，建立实体的本体模型；

S12：根据实体的本体模型，建立实体属性与数据属性的映射关系；

S13：根据实体属性与数据属性的映射关系，将实体信息从数据中抽取出来，进行属性转换，构建成一个个单独的实体实例。

进一步，所述属性决策过程包括以下步骤：

S21：寻找实体原属性；