[发明专利]一种基于消费事理图谱的消费意图识别和预测方法有效
申请号: | 202011069677.2 | 申请日: | 2020-09-30 |
公开(公告)号: | CN112132633B | 公开(公告)日: | 2021-07-06 |
发明(设计)人: | 丁效;秦兵;刘挺;石乾坤 | 申请(专利权)人: | 哈尔滨工业大学 |
主分类号: | G06Q30/02 | 分类号: | G06Q30/02;G06F16/951 |
代理公司: | 哈尔滨华夏松花江知识产权代理有限公司 23213 | 代理人: | 岳昕 |
地址: | 150001 黑龙*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 消费 事理 图谱 意图 识别 预测 方法 | ||
1.一种基于消费事理图谱的消费意图识别和预测方法,其特征在于,该方法包括以下步骤:
步骤一、利用标注了事件的数据对预训练好的BERT-Base模型进行微调后,利用微调后的BERT-Base模型从叙事性文本中抽取得到事件;
步骤二、利用标注了事件以及事件之间顺承关系的数据对预训练好的BERT-Base模型进行微调后,利用微调后的BERT-Base模型对步骤一中抽取的事件组成的事件对的顺承关系进行判别,构建事理图谱;
步骤三、根据步骤一中抽取出的事件构建二分图作为弱监督信息;
步骤四、结合步骤二构建的事理图谱和步骤三得到的弱监督信息,构建消费事理图谱;其具体过程为:
定义:U表示所有的事件节点,V表示所有的消费意图节点,E1为关联权重,即事件在各消费意图评论区中出现的频率,G1=(U,V,E1)表示基于事件在各自消费意图评论区中出现的频率而得到的二分图;
G2=(U,V,E2)表示人工标注的事件所对应消费意图的数据构成的二分图,E2代表特定事件和消费意图具有或不具有对应关系;
将G2分为训练数据集和测试数据集两部分,训练数据集G2_train=(U_train,V,E2_train),测试数据集G2_test=(U_test,V,E2_test);U_train、E2_train表征训练数据集中的事件节点以及这些事件节点和消费意图是否构成对应关系;U_test、E2_test表征测试数据集中的事件节点以及这些事件节点和消费意图是否构成对应关系;
G3=(U,U,E3)表征事理图谱,E3为事理图谱的边上的权值;
事件和消费意图的显式关系建模:
给定训练数据集中的事件ui和消费意图vj,则通过公式计算二者之间存在边的概率P(i,j)为:
基于G2_train:
其中:E2_train[i,j]代表事件ui和消费意图vj具有或不具有对应关系,若事件ui和消费意图vj具有对应关系,则的值为1,若事件ui和消费意图vj不具有对应关系,则的值为0;
其中,L1代表第一个损失函数项,eij代表事件ui和消费意图vj之间的边,eij∈G1时,事件ui和消费意图vj具有对应关系,即
事件间的隐式关系建模:
若两个事件节点ui1和ui2均与同一个消费意图节点相连,则两个事件节点ui1和ui2之间存在隐式相邻关系,即ui1和ui2为二阶事件相邻节点;得到任意一个事件节点u在二分图上的二阶事件相邻节点后,得到一个仅由节点u和二阶事件相邻节点构成的图G_u;
基于图G_u,通过随机游走得到语料库S_u,采用和Skip-gram相同的思路,对第二个损失函数项L2进行优化:
式中,Neighbor(ui)代表节点ui的二阶相邻节点的集合,P(uc|ui)代表给定事件节点ui时事件节点uc出现的概率;
消费意图间的隐式关系建模:
同理,通过随机游走得到由消费意图节点v构成的语料库S_v,对第三个损失函数项L3进行优化:
式中,Neighbor(vj)代表节点vj的二阶消费意图相邻节点的集合,P(vc|vj)代表给定消费意图节点vj时消费意图节点vc出现的概率;
则整体的优化目标L为:
minimizeL=L1-αlnL2-βlnL3
式中,α和β为损失函数的权重系数;
满足优化目标时,得到基于G1、G2_train和G3的U、V的表示,构建出消费事理图谱;
步骤五:建立同异质关系注意力模型,基于构建的消费事理图谱来训练建立的同异质关系注意力模型;
将事件和消费意图输入训练好的同异质关系注意力模型后,模型输出事件和消费意图存在或不存在对应关系;
所述建立的同异质关系注意力模型由事件编码器和消费意图编码器组成,事件编码器和消费意图编码器均由同质关系聚合器和异质关系聚合器组成;
事件编码器
给定事件event,基于事理图谱,得到该事件event的二阶事件相邻节点集合Neighbor_event_to_event(event);基于消费图谱,得到与该事件event具有对应关系的消费意图节点,得到的全部消费意图节点组成该事件event的消费意图相邻节点集合Neighbor_event_to_consumption(event);
事件编码器的同质关系聚合器的输入为该事件event和该事件的二阶事件相邻节点集合Neighbor_event_to_event(event);事件编码器的异质关系聚合器的输入为该事件event的消费意图相邻节点集合Neighbor_event_to_consumption(event),二者均通过Attention机制、分别利用同质关系信息和异质关系信息,得到该事件的隐含表示e1和e1′;
对于事件编码器的同质关系聚合器,给定事件event的隐含表示e1为:
其中,为事件同质相似度,w1、W1和W2都是事件编码器的同质关系聚合器的权重,b1、b2和b3都是事件编码器的同质关系聚合器的偏置,αee为归一化后的事件同质相似度,x为事件event的二阶事件相邻节点集合中的节点,eventhomo代表事件编码器的同质关系聚合器的输出,符号代表向量之间的连接,σ是激活函数;
对于事件编码器的异质关系聚合器,给定事件event的隐含表示e1′为:
其中,为事件异质相似度,w2、W1′和W2′都是事件编码器的异质关系聚合器的权重,b1′、b2′和b3′都是事件编码器的异质关系聚合器的偏置,αec为归一化后的事件异质相似度,x′为事件event的消费意图邻居节点集合中的节点,eventhetero代表事件编码器的异质关系聚合器的输出;
事件编码器输出事件的表示为:
其中,ventrepr为事件编码器输出事件的表示;
消费意图编码器
给定消费意图consumption,若另一个消费意图consumption2和该消费意图均与同一个事件具有对应关系,则认为消费意图consumption2是该消费意图consumption的二阶消费意图相邻节点,将消费意图consumption的全部二阶消费意图相邻节点consumption2构成的集合称为二阶消费意图相邻节点集合Neighbor_con_to_con(consumption);基于消费图谱,得到消费意图consumption的事件相邻节点集合Neighbor_con_to_event(consumption);
同质关系聚合器的输入为该消费意图consumption和该消费意图节点的二阶消费意图相邻节点集合Neighbor_con_to_con(consumption);异质关系聚合器的输入为该消费意图节点consumption的事件相邻节点集合Neighbor_con_to_event(consumption),二者均通过Attention机制、分别利用同质关系信息和异质关系信息,得到该消费意图的隐含表示e2和e2′;
对于消费意图编码器的同质关系聚合器,给定消费意图节点的向量表示e2:
其中,为消费意图同质相似度,w3、W3和W4都是消费意图编码器的同质关系聚合器的权重,b4、b5和b6都是消费意图编码器的同质关系聚合器的偏置,αcc为归一化后的消费意图同质相似度,x″为消费意图consumption的二阶消费意图相邻节点集合中的节点,consumptionhomo代表消费意图编码器的同质关系聚合器的输出;
对于消费意图编码器的异质关系聚合器,给定消费意图节点的向量表示e2′:
其中,为消费意图异质相似度,w4、W3′和W4′都是消费意图编码器的异质关系聚合器的权重,b4′、b5′和b6′都是消费意图编码器的异质关系聚合器的偏置,αce为归一化后的消费意图异质相似度,x″′为消费意图节点的事件相邻节点集合中的节点,consumptionhetero代表消费意图编码器的异质关系聚合器的输出;
消费意图编码器输出消费意图表示为:
其中,consumptionrepr为消费意图编码器输出消费意图;
基于获得的事件表示和消费意图表示,得出事件与消费意图是否存在对应关系:
g2=σ(W5·g1+b7)
pred=wT·g2
其中,g1和g2为中间变量,W5和w为权重,b7为偏置,pred为模型输出结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工业大学,未经哈尔滨工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011069677.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种可移动式正向上车的卸车平台
- 下一篇:一种高阻燃性色母粒及其制备方法