[发明专利]一种数据处理方法及相关设备在审

专利信息
申请号: 202110259775.0 申请日: 2021-03-10
公开(公告)号: CN112965890A 公开(公告)日: 2021-06-15
发明(设计)人: 周子站;郭东丹;刘晓辉;周凯洋;王晓勃 申请(专利权)人: 中国民航信息网络股份有限公司
主分类号: G06F11/34 分类号: G06F11/34;G06K9/62;G06N3/08;G06N20/00
代理公司: 北京集佳知识产权代理有限公司 11227 代理人: 柳欣
地址: 100085 北*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 数据处理 方法 相关 设备
【说明书】:

本申请提供了一种数据处理方法及相关设备,可以减少指令执行序列中的大量噪声,提高指令簇划分的准确性。该方法包括:对原始日志数据进行处理,得到指令操作序列集合;提取所述指令操作序列集合中的最终候选业务集合;根据对比学习模型确定第一候选业务中每个指令的嵌入向量,所述对比学习模型为对所述最终候选业务集合以及随机生成的指令短序列进行训练得到的,所述第一候选业务为所述最终候选业务集合中的任意一个候选业务,所述每个指令嵌入向量指示当前指令与其他指令的相似程度;通过聚类算法对所述第一候选业务中每个指令的嵌入向量进行聚类处理,得到所述最终候选业务集合对应的指令簇。

技术领域

本申请涉及通信领域,尤其涉及一种数据处理方法及相关设备。

背景技术

互联网企业中,为了完成某项业务,需要多个指令一起来完成,例如一个电商企业想要完成购买业务,可能需要多个指令,例如下单、查询库存、更新数据库等协同完成。企业的日志数据中记录了指令的执行顺序,对系统中的日志数据进行解析,可以得到系统中指令的执行序列。指令序列一定程度上反映了指令间的协作关系。

现在企业想要对系统中的指令进行梳理,根据其业务功能、协作关系,将其分为若干个指令簇。处在同一指令簇中的指令,会经常一起协作完成一些业务。

指令在执行序列上共同出现的情况一定程度上反映了指令间的协作关系,如果将指令序列当做一条文本数据,每个指令看做是一个词,可以使用自然语言处理中的技术将指令嵌入到一个向量,然后对向量进行聚类,从而得到指令簇。或者可以根据指令在序列中的出现情况,建立一张指令协作网络,再在网络上进行社区划分,得到指令簇。但是这些直接以指令序列作为输入的做法存在一个问题:指令的执行序列中含有大量噪声,从而导致最终结果不准确。

发明内容

本申请提供了一种数据处理方法及相关设备,可以减少指令执行序列中的大量噪声,提高指令簇划分的准确性。

本申请实施例第一方面提供了一种数据处理方法,包括:

对原始日志数据进行处理,得到指令操作序列集合;

提取所述指令操作序列集合中的最终候选业务集合;

根据对比学习模型确定第一候选业务中每个指令的嵌入向量,所述对比学习模型为对所述最终候选业务集合以及随机生成的指令短序列进行训练得到的,所述第一候选业务为所述最终候选业务集合中的任意一个候选业务,所述每个指令嵌入向量指示当前指令与其他指令的相似程度;

通过聚类算法对所述第一候选业务中每个指令的嵌入向量进行聚类处理,得到所述最终候选业务集合对应的指令簇。

本申请实施例第二方面提供了一种数据处理装置,包括:

处理单元,用于对原始日志数据进行处理,得到指令操作序列集合;

提取单元,用于提取所述指令操作序列集合中的最终候选业务集合;

确定单元,用于根据对比学习模型确定第一候选业务中每个指令的嵌入向量,所述对比学习模型为对所述最终候选业务集合以及随机生成的指令短序列进行训练得到的,所述第一候选业务为所述最终候选业务集合中的任意一个候选业务,所述每个指令嵌入向量指示当前指令与其他指令的相似程度;

聚类单元,用于通过聚类算法对所述第一候选业务中每个指令的嵌入向量进行聚类处理,得到所述最终候选业务集合对应的指令簇。

本申请第三方面提供了一种计算机装置,其包括至少一个连接的处理器和存储器,其中,所述存储器用于存储程序代码,所述程序代码由所述处理器加载并执行以实现上述第一方面所述的数据处理方法的步骤。

本申请实施例第四方面提供了一种机器可读介质,其包括指令,当其在机器上运行时,使得机器执行上述第一方面所述的数据处理方法的步骤。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国民航信息网络股份有限公司,未经中国民航信息网络股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110259775.0/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top