[发明专利]一种基于词对非对称共现的词向量表示学习方法有效
申请号: | 201811413427.9 | 申请日: | 2018-11-23 |
公开(公告)号: | CN109670171B | 公开(公告)日: | 2021-05-14 |
发明(设计)人: | 石隽锋;李济洪;王瑞波 | 申请(专利权)人: | 山西大学 |
主分类号: | G06F40/284 | 分类号: | G06F40/284;G06F40/216 |
代理公司: | 太原晋科知识产权代理事务所(特殊普通合伙) 14110 | 代理人: | 任林芳 |
地址: | 030006*** | 国省代码: | 山西;14 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 对称 向量 表示 学习方法 | ||
1.一种基于词对非对称共现的词向量表示学习方法,其特征在于:包括以下步骤,
S100~从语料库统计出词表;从给定语料库统计每个词出现的次数,按照频次从高到低排序,ci表示第i个词,fi表示第i个词的频次,1≤i≤n,n为语料库中不同的词语个数;
S200~设定固定窗口大小为w,依次遍历语料库中的词语,统计出左侧共现矩阵和右侧共现矩阵,表示为XL和XR,两个矩阵的大小都为n×n;
矩阵的行为词表中的每个词的序号,列也为词表中的每个词的序号,用表示ci、cj第k次共现时在语料中的位置;
S300~设置模型超参数,采用Glove模型的目标函数,分别用XL和XR训练出词语的左侧低维向量表示VL和右侧低维向量表示VR,将它们拼接在一起得到词语的低维向量表示V=[VL,VR]。
2.根据权利要求1所述的基于词对非对称共现的词向量表示学习方法,其特征在于:所述步骤S200中,统计左侧共现矩阵和右侧共现矩阵的过程如下:
S201~将矩阵XL和XR的每个值初始化为0;
S202~遍历语料库中的每个词,找到该词在词表中的序号i;
S203~遍历固定窗口内该词左侧共现的每一个词,找到该词在词表中的序号j,根据ci和cj的相对位置计算权值,累加到中,同时,将该权值累加到中;遍历结束生成左侧共现矩阵XL和右侧共现矩阵XR。
3.根据权利要求2所述的基于词对非对称共现的词向量表示学习方法,其特征在于:所述步骤S300具体采取以下方法,
训练VL的目标函数为:
其中和分别表示词ci和cj的左侧低维词向量表示,和为和对应的偏置项,为加权函数,根据词对的共现频次对目标函数中的每一项进行加权;
训练VR的目标函数为:
其中和分别表示词ci和cj的右侧低维词向量表示,和为和对应的偏置项,为加权函数,根据词对的共现频次对目标函数中的每一项进行加权;
和的加权方法和Glove模型的相同,该函数如下:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山西大学,未经山西大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811413427.9/1.html,转载请声明来源钻瓜专利网。