[发明专利]基于有监督序列生成网络的集团级KKS编码自动映射方法有效
申请号: | 202110905902.X | 申请日: | 2021-08-09 |
公开(公告)号: | CN113343642B | 公开(公告)日: | 2021-11-02 |
发明(设计)人: | 傅骏伟;郭鼎;王豆;张震伟;孟瑜炜;俞荣栋;吴林峰;雪小峰;罗一凡 | 申请(专利权)人: | 浙江浙能技术研究院有限公司 |
主分类号: | G06F40/126 | 分类号: | G06F40/126;G06F40/242;G06N3/04 |
代理公司: | 杭州九洲专利事务所有限公司 33101 | 代理人: | 张羽振 |
地址: | 311121 浙江省杭州市余*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 监督 序列 生成 网络 集团 kks 编码 自动 映射 方法 | ||
1.一种基于有监督序列生成网络的集团级KKS编码自动映射方法,其特征在于,包括以下步骤:
步骤1、通过采集设备收集旧KKS编码列表和新KKS编码列表,其中为旧KKS编码,为新KKS编码,为旧KKS编码或新KKS编码的总个数;分析编码特征,构建通用分词规则;技术人员将部分旧KKS编码列表和部分新KKS编码列表进行匹配,得到映射表;根据旧KKS编码列表、新KKS编码列表和映射表构建KKS编码数据集;
步骤2、由步骤1获得的通用分词规则对KKS编码数据集中的KKS编码进行分词,提取KKS编码中的专业编码和特殊符号,KKS编码的序号和专业编码组成键值,其中专业编码为英文;将键值用于构建专业字典,将专业字典保存于存储装置的存储单元内;
步骤3、对步骤1获得的KKS编码数据集进行向量化处理得到向量化数据集;
步骤4、通过随机采样方法将步骤3得到的向量化数据集划分为训练集、验证集和测试集,并按照设定比例将向量化数据集划分为对应的数据集数量,并将按比例划分的数据集数量依次放入训练集、验证集和测试集;将旧KKS编码作为训练数据,新KKS编码作为数据标签;
步骤5、通过由步骤4获得的训练集,训练序列生成网络模型,序列生成网络模型由编码网络与解码网络组成;
步骤5.1、将训练集随机采样并分组拆分,构成批次数据,将批次数据作为序列生成网络模型的输入;
步骤5.2、构建基于长短期记忆网络的编码网络,编码网络由嵌入层与LSTM编码层组成:
上式中,表示嵌入层将序列生成网络模型的输入值转换为固定尺寸的稠密向量;表示LSTM编码层将稠密向量通过长短期记忆网络内部的遗忘门、保留门和输出门进行矩阵计算,获得序列特征;
步骤5.3、构建基于长短期记忆网络的解码网络, 解码网络由嵌入层、LSTM解码层和全连接层组成;
上式中,表示嵌入层将训练集中的数据标签转换为固定尺寸的标签向量;表示LSTM解码层将标签向量以及步骤5.2得到的序列特征作为输入,通过长短期记忆网络内部的遗忘门、保留门和输出门进行矩阵计算,得到重构特征;表示全连接层
步骤5.4、将由步骤5.3得到的概率权重矩阵与训练集中对应的数据标签进行计算,得到序列生成网络模型的偏差,并将作为训练迭代依据,更新序列生成网络模型中的权重参数;
步骤5.5、重复执行步骤5.1至步骤5.4,直至迭代次数达到预设值,或序列生成网络模型的偏差趋于收敛时,得到基于旧KKS编码规则和新KKS编码规则下的序列生成网络模型;
步骤6、将步骤1中旧KKS编码列表内未与新KKS编码列表进行匹配的旧KKS编码输入训练得到的序列生成网络模型,生成KKS编码;并将序列生成网络模型生成的KKS编码与新KKS编码列表内的新KKS编码进行余弦相似度计算,取相似度最高的编码作为候选映射编码,将序列生成网络模型下装到计算模块内的微服务接口,并输出候选映射编码,将候选编码存储于存储装置内的存储单元。
2.根据权利要求1所述基于有监督序列生成网络的集团级KKS编码自动映射方法,其特征在于:步骤1中的编码特征指编码由英文、数字、特殊符号组成。
3.根据权利要求1所述基于有监督序列生成网络的集团级KKS编码自动映射方法,其特征在于:步骤2中采用通用分词规则进行分词时,当相邻两个字符为非同类字符时,通用分词规则对KKS编码数据集中的KKS编码进行划分,通用分词规则将数字字符逐个划分;将专业字典保存于存储装置的存储单元内时采用Json数据格式进行保存。
4.根据权利要求1所述基于有监督序列生成网络的集团级KKS编码自动映射方法,其特征在于,步骤3具体包括如下步骤:
步骤3.1、根据步骤1得到的通用分词规则将KKS编码进行分词,获得对应的分词结果并进行对齐处理;
步骤3.2、将步骤3.1得到的分词结果分别与步骤2获得的专业字典中的专业名词进行匹配,获得专业名词对应的数字编码,并按顺序将数字编码进行组合得到向量化数据集。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江浙能技术研究院有限公司,未经浙江浙能技术研究院有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110905902.X/1.html,转载请声明来源钻瓜专利网。