[发明专利]一种LIWC词表扩展方法有效
申请号: | 201711364040.4 | 申请日: | 2017-12-18 |
公开(公告)号: | CN108073704B | 公开(公告)日: | 2020-07-14 |
发明(设计)人: | 刘知远;杨成;曾祥楷;涂存超;孙茂松 | 申请(专利权)人: | 清华大学 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F40/253;G06F40/279;G06F40/30;G06N3/04;G06N3/08 |
代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 王莹;李相雨 |
地址: | 100084 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 liwc 词表 扩展 方法 | ||
1.一种LIWC词表扩展方法,其特征在于,包括:
S1,根据目标单词的义元和所述目标单词的第i-1层标签,应用注意力机制构建所述目标单词的第i层上下文表示;
S2,将所述第i-1层标签、第i层上下文表示与循环神经网络的第i-1层隐状态输入所述循环神经网络,获取第i层隐状态;
S3,应用所述第i层隐状态获取所述目标单词的第i层标签;
S4,重复所述步骤S1至S3,逐层获取所述目标单词的各层标签;其中,m≥i≥1,i为整数,m为所述目标单词所包含的总层数;
所述步骤S2进一步包括:
将所述第i-1层标签yi-1、第i层上下文表示ci与循环神经网络的第i-1层隐状态si-1输入所述循环神经网络,根据如下公式获取第i层隐状态si:
oi=σ(Wo·[σi-1,yi-1,ci]+bo)
zi=σ(Wz·[si-1,yi-1,ci]+bz)
fi=σ(Wf·[si-1,yi-1,ci]+bf)
其中,σ()为sigmoid函数,*为向量间按位相乘操作,Wo、Wz、Wf、bo、bz和bf为权重参数;oi、zi和fi分别为第i层输出门、更新门和遗忘门;
所述步骤S3进一步包括:
根据下式应用所述第i层隐状态si获取第i层候选标签的概率分布:
p(yi|(y1,y2…yi-1),ci,si)=softmax(M(oi*tanh(si))+d)
根据所述第i层候选标签的概率分布从第i层的候选标签集合中提取第i层标签;
其中,p(yi|(y1,y2…yi-1),ci,si)为第i层标签的概率分布,d为偏置向量,M为全局的标签表示矩阵,oi为所述循环神经网络的第i层输出门。
2.根据权利要求1所述的方法,其特征在于,所述步骤S1进一步包括:
S11,应用word2vec将目标单词的若干个义元转换为若干个义元向量;
S12,根据所述若干个义元向量和第i-1层标签,应用注意力机制构建所述目标单词的第i层上下文表示。
3.根据权利要求2所述的方法,其特征在于,所述步骤S12中,所述第i层上下文表示ci为:
其中,hj是所述若干个义元中第j个义元的义元向量,αij定义为:
其中,k为所述目标单词的义元总数,eij定义为:
eij=vTtanh(W1yi-1+W2hj)
其中,v、W1和W2为权重矩阵,yi-1为所述第i-1层标签。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711364040.4/1.html,转载请声明来源钻瓜专利网。