[发明专利]一种基于深度匹配模型的跨平台商品匹配方法有效
申请号: | 201811423859.8 | 申请日: | 2018-11-27 |
公开(公告)号: | CN109584006B | 公开(公告)日: | 2020-12-01 |
发明(设计)人: | 窦志成;李娟;文继荣 | 申请(专利权)人: | 中国人民大学 |
主分类号: | G06Q30/06 | 分类号: | G06Q30/06;G06N3/04 |
代理公司: | 北京纪凯知识产权代理有限公司 11245 | 代理人: | 徐宁;孙楠 |
地址: | 100872 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 匹配 模型 平台 商品 方法 | ||
1.一种基于深度匹配模型的商品匹配方法,其特征在于包括以下步骤:
1)定义两个商品X、Y的标题相似度和属性相似度;
2)计算得到两个商品X、Y的商品标题相似度和商品属性相似度;
3)将两个商品X、Y的商品标题相似度SIMt和商品属性相似度SIMa进行融合,进而判断出两个商品是否属于同一种商品;
所述步骤2)中,两个商品的相似度是通过商品标题和商品属性分别度量的,通过TMM和AMM分别得到商品标题匹配的相似度特征和商品属性匹配的相似度特征,将两种相似度特征组合后得到两个商品X、Y最后的匹配得分;其中,TMM和AMM为深度商品匹配模型PMM的两个子模型;
所述AMM中两个商品属性之间的相似度计算方法如下:
(1)属性名匹配;
(2)属性值匹配;
(3)属性相似度:将两种匹配特征拼接得到一个的向量,然后将这个拼接的向量传入一个两层的多层感知机,以使得属性名匹配特征和属性值匹配特征进行融合;最后获得属性匹配相似度SIMa:
SIMa=tanh(W′·[GN:GV]+b′)
其中,W′和b是多层感知机的参数,其中W′表示节点和节点之间的权重变量,b是偏置向量;
所述步骤(1)中,属性名匹配方法包括以下步骤:
(1.1)对于两个商品的属性名词集合,构造一个用于衡量属性名集合之间语义相似度的交互矩阵,交互矩阵中的元素是词与词之间的相似度,且相似度是根据词向量计算的;
(1.2)得到交互矩阵之后,采用K最大池化抽取最大的K个匹配特征,这些特征表示属性名中词之间的最大的相似度,得到的这些特征做为两个商品的属性名集合之间的匹配相似度特征;之后将它与属性值集合之间的匹配相似度特征进行拼接得到属性匹配的相似度特征;
(1.3)属性名中的词和的相似度的计算公式为:
其中,e(·)表示的是词对应的词向量,×是点积操作;
所述TMM利用Bi-LSTM和CNN来计算标题相似度,计算方法如下:
(1)分别对两个商品标题进行位置句子表示;
(2)将两个商品标题位置句子表示进行交互得到交互矩阵,通过该交互矩阵表示两个标题的匹配情况;
(3)卷积和池化操作:获得交互矩阵后,采用经典的卷积神经网络来抽取匹配模式;
(4)获取两标题相似度。
2.如权利要求1所述商品匹配方法,其特征在于:所述步骤(1)中,位置句子表示方法包括以下步骤:
(1.1)给定输入的商品标题(x1,x2,...,xt,...,xm),词xt的位置句子表示ht是由前向的LSTM的隐含层向量和反向的LSTM的隐含层向量拼接的:
(1.2)对于LSTM的每一个隐含层的输出,都是通过遗忘门、输入门和输出门三个门进行控制,前向的LSTM的隐含层向量为:
其中:
其中,tanh(.)和σ(.)是激活函数,其中tanh(.)用在状态和输出上,是对数据的处理,σ(.)用在各种gate上,用于产生0到1之间的值;为忘记门,用于决定需要从细胞状态中丢弃多少信息;为输入门,用于确定什么样的新信息被存放在细胞状态中;是更新得到的细胞新状态,它是通过将旧状态与相乘,再加上当前细胞状态中的新信息得到的;是得到的输出值,这个输出是基于细胞状态得到的,其中的是输出层的一部分,用于确定细胞状态的哪些信息作为输出信息;
(1.3)反向的LSTM定义与步骤(1.2)相同;
(1.4)根据步骤(1.2)和步骤(1.3)的计算结果,得到标题(x1,x2,...,xt,...,xm)的位置表示为隐含层状态(h1,h2,...,ht,...,hm)。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民大学,未经中国人民大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811423859.8/1.html,转载请声明来源钻瓜专利网。