[发明专利]命令行字符串处理方法、终端、装置及可读存储介质在审

专利信息
申请号: 201911018971.8 申请日: 2019-10-24
公开(公告)号: CN110750984A 公开(公告)日: 2020-02-04
发明(设计)人: 程勇;衣志昊;刘洋;陈天健 申请(专利权)人: 深圳前海微众银行股份有限公司
主分类号: G06F40/279 分类号: G06F40/279;G06F16/35
代理公司: 44287 深圳市世纪恒程知识产权代理事务所 代理人: 王韬
地址: 518000 广东省深圳市前海深港合作区前*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 分词 命令行字符串 数值向量 模型训练 命令信息 可读存储介质 长度对齐 长度确定 获取命令 命令参数 命令更新 样本类型 字符串 更新 终端 分类
【说明书】:

发明公开了一种命令行字符串处理方法,包括以下步骤:获取命令行字符串对应的命令信息,并基于命令信息确定所述命令行字符串对应的分词类型,而后基于所述分词类型对命令参数进行分词操作生成分词列表,并基于命令更新所述分词列表,接下来生成更新后的分词列表对应的序列数值向量,最后基于更新后的分词列表的列表长度确定所述序列数值向量对应的样本类型。本发明还公开了一种装置、终端及可读存储介质。实现了对命令行字符串进行合理分词,进一步根据分词列表的列表长度对命令行字符串分类,使序列数值向量长度对齐,以便模型训练时对不同类别的序列数值向量分别进行处理,节省模型训练的时间和速度,提升模型训练效率。

技术领域

本发明涉及机器学习技术领域,尤其涉及一种命令行字符串处理方法、终端、装置及可读存储介质。

背景技术

自然语言语料一般都是由封闭的(或者是相对封闭的,即陌生词较少) 词汇集合组成的,例如,英语常用的单词大概有9万个,汉语常用的汉字有6763 个(注:GB 2312标准共收录6763个汉字,其中一级汉字3755个,二级汉字3008 个;同时收录了包括拉丁字母、希腊字母、日文平假名及片假名字母、俄语西里尔字母在内的682个特殊字符)。

与自然语言不同的是,计算机命令行字符串(例如,Linux命令行字符, MySQL命令行字符,DOS命令行字符串,等等)是由非封闭的词汇集合组成的。在处理非封闭的词汇系统时,遇到的最大的困难就是不断出现的陌生词,例如,用户自定义的词汇。现有技术中,字符嵌入(character embedding)模型、词嵌入(word embedding)或者句嵌入(sentenceembedding)模型,在新的语料数据上使用时,如果有很多陌生词汇(即训练语料数据中没有出行过的词汇),现有模型一般不能将这些陌生词映射到合适的数值向量上,也不能很好的提取字符串或者句子里前后文的关系,那这样就会显著影响机器学习模型的性能,例如,情感分类模型的性能,或者命令行异常检测模型的性能。

上述内容仅用于辅助理解本发明的技术方案,并不代表承认上述内容是现有技术。

发明内容

本发明的主要目的在于提供一种命令行字符串处理方法、终端、装置及可读存储介质,旨在解决命令行字符串由于存在陌生词,现有分词模型无法对其进行合理分词,导致影响机器学习模型性能的技术问题。

为实现上述目的,本发明提供一种命令行字符串处理方法,命令行字符串包括命令和命令参数,所述的命令行字符串处理方法包括以下步骤:

获取所述命令行字符串对应的命令信息,并基于所述命令信息确定所述命令行字符串对应的分词类型;

基于所述分词类型对所述命令参数进行分词操作生成分词列表,并基于所述命令更新所述分词列表;

生成更新后的分词列表对应的序列数值向量;

基于所述更新后的分词列表的列表长度确定所述序列数值向量对应的样本类型。

进一步地,在一实施方式中,所述命令信息包括自定义参数、特定参数和混合参数,所述分词类型包括字符型、词组型和混合型,所述基于所述命令信息确定所述命令行字符串对应的分词类型的步骤包括:

当所述命令信息为自定义参数时,确定所述分词类型为字符型;

当所述命令信息为特定参数时,确定所述分词类型为词组型;

当所述命令信息为混合参数时,确定所述分词类型为混合型。

进一步地,在一实施方式中,所述基于所述分词类型对所述命令参数进行分词操作生成分词列表的步骤包括:

当所述分词类型为混合型时,将所述命令参数与预设词典进行比较,确定匹配的第一可识别分词以及第一不可识别字符;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳前海微众银行股份有限公司,未经深圳前海微众银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201911018971.8/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top