[发明专利]一种基于词对非对称共现的词向量表示学习方法有效

申请号：	201811413427.9	申请日：	2018-11-23
公开（公告）号：	CN109670171B	公开（公告）日：	2021-05-14
发明（设计）人：	石隽锋;李济洪;王瑞波	申请（专利权）人：	山西大学
主分类号：	G06F40/284	分类号：	G06F40/284;G06F40/216
代理公司：	太原晋科知识产权代理事务所(特殊普通合伙) 14110	代理人：	任林芳
地址：	030006***	国省代码：	山西;14
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于对称向量表示学习方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明属于自然处理领域，具体是一种基于词对非对称共现的词向量表示学习方法。包括以下步骤。S100～从语料库统计出词表；从给定语料库统计每个词出现的次数，按照频次从高到低排序，S200～依次遍历语料库中的词语，统计出左侧共现矩阵和右侧共现矩阵，表示为X^L和X^R，S300～设置模型超参数，采用Glove模型的目标函数，分别用X^L和X^R训练出词语的左侧低维向量表示V^L和右侧低维向量表示V^R，将它们拼接在一起得到词语的低维向量表示V=[V^L，V^R]。本发明采用并行计算的方法同时以两种共现矩阵训练词向量，大幅减少了程序的运行时间。

技术领域

本发明属于自然处理领域，具体是一种基于词对非对称共现的词向量表示学习方法。

背景技术

在自然处理领域，词在计算机内部的表示方法有很多，典型的有以下几种：

1)one-hot representation，这种方法应用于传统的基于规则的、统计的自然语言处理方法中。它把每个词都表示成一个向量，向量的长度为词表的大小，向量中只有一个维度的值为1，代表当前词，其余维度为0。这种表示不利于词的语义计算。

2)distributional representation，该方法表示的向量长度也是词表的大小，是通过从语料库中统计共现矩阵得到的，共现矩阵的每一行对应一个词，每一列也对应一个词，矩阵中的每个元素表示这两个词语在语料中共现的频次，矩阵中的每一行就是该词对应的词向量，这种表示改进了one-hot表示的词的语义信息，但是，由于词向量的维度非常高且稀疏，在进行词的语义计算的时候效果有限。

3)distributed representation，该表示是由distributional representation通过各种方法降维得到的低维的稠密向量，该表示克服了distributionalrepresentation的缺点，能较好地进行语义计算。

基于Glove模型的低维词表示方法是目前主要的表示学习方法之一，Glove模型其学习算法相对简单，效率高且易于实施。训练出的词向量在语义相似度任务和词语推断任务中有较好的表现。

Glove模型的详细描述参照以下文献：

Pennington J,Socher R,Manning C.Glove:Global Vectors for WordRepresentation[C]//Conference on Empirical Methods in Natural LanguageProcessing.2014:1532-1543.

Glove模型的主要步骤为：设定固定窗口的大小，对每个词(目标词)取它两边的固定窗口内的词语作为上下文，统计共现频次，生成共现矩阵，然后采用随机梯度下降法，训练得到每个词的向量表示。该模型虽然性能较好，但是，没有考虑词语的先后顺序，在统计目标词的共现矩阵时，对目标词左侧和右侧的词语没有区别对待，将目标词左侧和右侧的词语混在一起作为目标词的上下文，因此，由该共现矩阵训练出的词向量，精度有待进一步提高。

发明内容

本发明为了解决上述问题，提供一种基于词对非对称共现的词向量表示学习方法。

本发明采取以下技术方案：一种基于词对非对称共现的词向量表示学习方法，包括以下步骤。

S100～从语料库统计出词表；从给定语料库统计每个词出现的次数，按照频次从高到低排序，c_i表示第i个词，f_i表示第i个词的频次，1≤i≤n，n为语料库中不同的词语个数。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于山西大学，未经山西大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201811413427.9/2.html，转载请声明来源钻瓜专利网。

上一篇：专业词汇挖掘方法、装置、可读存储介质及电子设备
下一篇：一种基于复合神经网络的景区异常事件抽取方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于词对非对称共现的词向量表示学习方法有效

专利文献下载