[发明专利]动态分析的工业品相似度计算方法和系统在审
申请号: | 202110892807.0 | 申请日: | 2021-08-04 |
公开(公告)号: | CN113850287A | 公开(公告)日: | 2021-12-28 |
发明(设计)人: | 朱俊;肖成祥;杨丽萍;戴智鑫 | 申请(专利权)人: | 欧冶工业品股份有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 上海段和段律师事务所 31334 | 代理人: | 郭国中;李佳俊 |
地址: | 201900 上海市宝山*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 动态 分析 工业品 相似 计算方法 系统 | ||
本发明提供了一种动态分析的工业品相似度计算方法和系统,包括:步骤S1:在Bert模型中添加输入层,对输入到Bert模型的行业数据先进行预处理再进行输入;步骤S2:对Bert模型进行参数优化,先使用通用参数进行模型训练,得到实际模型训练类别,再结合训练参数特点,预设指标后对损失函数进行收敛,得到实际模型训练结果;步骤S3:对实际模型训练结果进行相似度计算,得到符合预设条件的工业品。本发明从业务方面解决了因买卖双方对工业品的定义存在差异而导致商业关系匹配困难的痛点问题,并且适用于多种业务场景。
技术领域
本发明涉及数据处理技术领域,具体地,涉及一种动态分析的工业品相似度计算方法和系统。
背景技术
在传统的工业品行业,不同工业品公司对同一物料或商品可能会根据公司自身的原因对本质上一样的工业品赋予不同的名字,这样就给双方在进行工业品交易的时候,带来了极大的困难,为此,就需要对工业品行业有很深理解的行业专家来人工的进行识别。这样不仅增加了公司的成本,而且极大地降低了商品消歧的速度。
为此,本发明旨在解决因买卖双方对工业品的定义存在差异,而导致商业关系匹配困难的痛点问题。所以,本发明实现了不同描述下商品匹配的通用核心技术组件,不同数字化场景均会使用本发明。
专利文献CN107436864B(申请号:CN201710661607.8)公开了一种基于Word2Vec的中文问答语义相似度计算方法,包括文本预处理、向量表示和相似度计算。然而该专利所用到的Word2Vec存在缺陷:如果新的商品通过分词后,出现的词在训练好的模型中不存在时,那么这个词的数学向量模型全为0,因此Word2Vec模型对新的词的表现不够良好。
发明内容
针对现有技术中的缺陷,本发明的目的是提供一种动态分析的工业品相似度计算方法和系统。
根据本发明提供的动态分析的工业品相似度计算方法,包括:
步骤S1:在Bert模型中添加输入层,对输入到Bert模型的行业数据先进行预处理再进行输入;
步骤S2:对Bert模型进行参数优化,先使用通用参数进行模型训练,得到实际模型训练类别,再结合训练参数特点,预设指标后对损失函数进行收敛,得到实际模型训练结果;
步骤S3:对实际模型训练结果进行相似度计算,得到符合预设条件的工业品。
优选的,将行业数据按照8:2的比例分成训练集和测试集,分别用于训练和测试,并将训练和测试的数据作为输入层的输入带入到Bert模型中。
优选的,在输入通用参数后,通过Bert模型预测模型训练类别;
对预测模型训练类别和实际模型训练类别进行正确率计算,正确率越高则表明模型分类的正确性越高,若正确率低于预设阈值则继续进行模型训练。
优选的,对实际模型训练结果进行损失值计算,计算模型预测结果与实际模型训练结果的差值,若差值越小,则表明模型训练的效果越好;若差值高于预设阈值,则继续进行模型训练。
优选的,采用余弦相似度进行相似度计算,公式为:
其中,similarity(A,B)表示余弦相似度;A表示目标用户的行为向量;B表示除目标用户的行为向量;A·B表示向量A和向量B的内积;||A||表示向量A的模;||B||表示向量B的模;n表示向量的分量数;i表示向量的第i个分量;Ai表示向量A的第i个分量;Bi表示向量B的第i个分量;
根据相似度计算结果,对相似度最高的工业品数据进行工业品推荐。
根据本发明提供的动态分析的工业品相似度计算系统,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于欧冶工业品股份有限公司,未经欧冶工业品股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110892807.0/2.html,转载请声明来源钻瓜专利网。