[发明专利]一种基于词对非对称共现的词向量表示学习方法有效

专利信息
申请号: 201811413427.9 申请日: 2018-11-23
公开(公告)号: CN109670171B 公开(公告)日: 2021-05-14
发明(设计)人: 石隽锋;李济洪;王瑞波 申请(专利权)人: 山西大学
主分类号: G06F40/284 分类号: G06F40/284;G06F40/216
代理公司: 太原晋科知识产权代理事务所(特殊普通合伙) 14110 代理人: 任林芳
地址: 030006*** 国省代码: 山西;14
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 对称 向量 表示 学习方法
【权利要求书】:

1.一种基于词对非对称共现的词向量表示学习方法,其特征在于:包括以下步骤,

S100~从语料库统计出词表;从给定语料库统计每个词出现的次数,按照频次从高到低排序,ci表示第i个词,fi表示第i个词的频次,1≤i≤n,n为语料库中不同的词语个数;

S200~设定固定窗口大小为w,依次遍历语料库中的词语,统计出左侧共现矩阵和右侧共现矩阵,表示为XL和XR,两个矩阵的大小都为n×n;

矩阵的行为词表中的每个词的序号,列也为词表中的每个词的序号,用表示ci、cj第k次共现时在语料中的位置;

S300~设置模型超参数,采用Glove模型的目标函数,分别用XL和XR训练出词语的左侧低维向量表示VL和右侧低维向量表示VR,将它们拼接在一起得到词语的低维向量表示V=[VL,VR]。

2.根据权利要求1所述的基于词对非对称共现的词向量表示学习方法,其特征在于:所述步骤S200中,统计左侧共现矩阵和右侧共现矩阵的过程如下:

S201~将矩阵XL和XR的每个值初始化为0;

S202~遍历语料库中的每个词,找到该词在词表中的序号i;

S203~遍历固定窗口内该词左侧共现的每一个词,找到该词在词表中的序号j,根据ci和cj的相对位置计算权值,累加到中,同时,将该权值累加到中;遍历结束生成左侧共现矩阵XL和右侧共现矩阵XR

3.根据权利要求2所述的基于词对非对称共现的词向量表示学习方法,其特征在于:所述步骤S300具体采取以下方法,

训练VL的目标函数为:

其中和分别表示词ci和cj的左侧低维词向量表示,和为和对应的偏置项,为加权函数,根据词对的共现频次对目标函数中的每一项进行加权;

训练VR的目标函数为:

其中和分别表示词ci和cj的右侧低维词向量表示,和为和对应的偏置项,为加权函数,根据词对的共现频次对目标函数中的每一项进行加权;

和的加权方法和Glove模型的相同,该函数如下:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山西大学,未经山西大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201811413427.9/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top