[发明专利]一种基于词对非对称共现的词向量表示学习方法有效
申请号: | 201811413427.9 | 申请日: | 2018-11-23 |
公开(公告)号: | CN109670171B | 公开(公告)日: | 2021-05-14 |
发明(设计)人: | 石隽锋;李济洪;王瑞波 | 申请(专利权)人: | 山西大学 |
主分类号: | G06F40/284 | 分类号: | G06F40/284;G06F40/216 |
代理公司: | 太原晋科知识产权代理事务所(特殊普通合伙) 14110 | 代理人: | 任林芳 |
地址: | 030006*** | 国省代码: | 山西;14 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: |
本发明属于自然处理领域,具体是一种基于词对非对称共现的词向量表示学习方法。包括以下步骤。S100~从语料库统计出词表;从给定语料库统计每个词出现的次数,按照频次从高到低排序,S200~依次遍历语料库中的词语,统计出左侧共现矩阵和右侧共现矩阵,表示为X |
||
搜索关键词: | 一种 基于 对称 向量 表示 学习方法 | ||
【主权项】:
1.一种基于词对非对称共现的词向量表示学习方法,其特征在于:包括以下步骤,S100~从语料库统计出词表;从给定语料库统计每个词出现的次数,按照频次从高到低排序,ci表示第i个词,fi表示第i个词的频次,1≤i≤n,n为语料库中不同的词语个数;S200~设定固定窗口大小为w,依次遍历语料库中的词语,统计出左侧共现矩阵和右侧共现矩阵,表示为XL和XR,两个矩阵的大小都为n×n;
矩阵的行为词表中的每个词的序号,列也为词表中的每个词的序号,用![]()
表示ci、cj第k次共现时在语料中的位置。![]()
S300~设置模型超参数,采用Glove模型的目标函数,分别用XL和XR训练出词语的左侧低维向量表示VL和右侧低维向量表示VR,将它们拼接在一起得到词语的低维向量表示V=[VL,VR]。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山西大学,未经山西大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201811413427.9/,转载请声明来源钻瓜专利网。