[发明专利]商品信息格式处理方法、装置、计算机设备和存储介质有效
申请号: | 201810380751.9 | 申请日: | 2018-04-25 |
公开(公告)号: | CN108563782B | 公开(公告)日: | 2023-04-18 |
发明(设计)人: | 金鑫;杨雨芬;赵媛媛 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/289;G06N3/0442;G06N3/08 |
代理公司: | 华进联合专利商标代理有限公司 44224 | 代理人: | 王宁 |
地址: | 518052 广东省深*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 商品信息 格式 处理 方法 装置 计算机 设备 存储 介质 | ||
本申请涉及一种商品信息格式处理方法、装置、计算机设备和存储介质。所述方法包括:获取商品信息,所述商品信息包括多个商品项;对所述商品项的内容进行分词处理,得到多个词;获取通过词向量模型训练得到的多个词对应的权重向量,利用多个词对应的权重向量生成权重矩阵;获取所述商品项的多个词对应的编码,将多个词的编码输入至训练后的多层循环神经网络;通过所述训练后的多层循环神经网络,基于所述多个词的编码以及所述权重矩阵进行运算,输出所述商品项对应的预设格式的描述。采用本方法在统一商品信息格式时能够有效提高处理效率。
技术领域
本申请涉及计算机技术领域,特别是涉及一种商品信息格式处理方法、装置、计算机设备和存储介质。
背景技术
海关报关单中涉及到各种各样的商品信息,虽然报关单中规定了统一的申报格式,但是不同的申报人填写商品信息的顺序和形式不同,导致报关单中的商品信息格式并不统一。大量的海关人员对不同格式的商品信息进行解读,费时费力,而且对海关进出口业务风控管理也造成了较多阻碍。
为了对商品信息格式进行有效的统一化处理,在传统的方式中,开发人员通常采特定的模板配合专有词典对关键信息进行匹配,将商品信息的格式进行统一。然而这种方式需要开发人员开发多种模板以及收集多种专有名词库构建专有词典,导致统一商品信息格式的处理效率较低。
发明内容
基于此,有必要针对上述技术问题,提供一种在统一商品信息格式时能够有效提高处理效率的商品信息格式处理方法、装置、计算机设备和存储介质。
一种商品信息格式处理方法,所述方法包括:
获取商品信息,所述商品信息包括多个商品项;
对所述商品项的内容进行分词处理,得到多个词;
获取通过词向量模型训练得到的多个词对应的权重向量,利用多个词对应的权重向量生成权重矩阵;
获取所述商品项的多个词对应的编码,将多个词的编码输入至训练后的多层循环神经网络;
通过所述训练后的多层循环神经网络,基于所述多个词的编码以及所述权重矩阵进行运算,输出所述商品项对应的预设格式的描述。
在其中一个实施例中,所述方法还包括:
获取与商品信息对应的训练集,所述训练集中包括多个商品项以及商品项对应的多个训练词;
统计多个商品项中训练词的词汇数量,将最大词汇数量标记为最长输入参数;
利用所述最长输入参数以及所述训练词,对词向量模型进行训练,得到所述训练词对应的权重向量;
利用所述最长输入参数以及所述训练词对应的权重向量对多层循环神经网络进行训练,得到训练后的多层循环神经网络。
在其中一个实施例中,所述利用所述最长输入参数以及所述训练词,对词向量模型进行训练,得到所述训练词对应的权重向量包括:
获取与商品信息对应的语料库,所述语料库中包括多个语料词;所述语料词中包括部分预设字符;
利用所述语料词对词向量模型进行训练,得到语料权重矩阵;所述语料权重矩阵包括多个语料权重向量;
利用预设字符将多个商品项的训练词的词汇数量增加至与所述最长输入参数相同的数量;
根据增加词汇数量后的商品项,在所述语料权重矩阵中选择训练词以及一个或多个预设字符对应的语料权重向量,标记为训练词对应的输入向量;
通过所述词向量模型加载多个输入向量,通过所述词向量模型的隐含层进行训练得到训练权重矩阵,所述训练权重矩阵包括多个训练词以及预设字符对应的权重向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810380751.9/2.html,转载请声明来源钻瓜专利网。