[发明专利]词嵌入模型的增量生成在审

专利信息
申请号: 201910107979.5 申请日: 2019-02-02
公开(公告)号: CN110134972A 公开(公告)日: 2019-08-16
发明(设计)人: 佩罗·苏巴西奇;林晓 申请(专利权)人: 株式会社NTT都科摩
主分类号: G06F17/28 分类号: G06F17/28;G06F17/27;G06F16/33;G06N3/04
代理公司: 北京东方亿思知识产权代理有限责任公司 11258 代理人: 林强
地址: 日本*** 国省代码: 日本;JP
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 文本语料库 向量模型 嵌入 向量变换 向量 自由 访问
【说明书】:

本公开涉及词嵌入模型的增量生成。提供了一种系统和方法,用于将来自由第一文本语料库产生的第一向量模型的向量以及来自由第二文本语料库产生的第二向量模型的向量变换到组合的向量模型。有利地,不需要对第一文本语料库进行访问或再训练。

相关申请的交叉引用

本申请要求于2018年2月8日提交的美国临时申请第62/628,177号的优先权和权益,其内容全部并入本文。

技术领域

本申请涉及自然语言处理,并且更具体地涉及将由第一文本语料库产生的第一向量模型和由第二文本语料库产生的第二向量模型合并为新的向量模型。

背景技术

诸如C++的编程语言是非常明确且准确的。但是,自然语言既不明确也不精确。例如,单词“get”在一个上下文中可能意指获得,但在另一个上下文中意指理解。为了使机器能够处理自然语言,早期的方法尝试了机器试图应用语法规则的语义方法。但是这种方法基本上是行不通的。例如,使用语法规则的机器翻译在翻译的文本中导致几乎滑稽的错误。但是现代自然语言处理更强大,并且导致翻译可能相当准确,并且几乎不需要人工编辑。

为了获得这样的结果,现代自然语言处理将词或短语表示(嵌入)为向量。由于正在被嵌入的可以是单个词或多个词,因此正在被嵌入的符号可以表示为令牌,其中每个令牌表示至少一个词。例如,假设从文本语料库中正在嵌入N个令牌,N是复数正整数。然后可以将每个令牌分配到N维向量中的维度(独热码(one-hot encoding))。由各种令牌产生的输入向量用于训练神经网络。示例是图1所示的Word2Vec神经网络100,其由Google公司使用具有多个D节点的单隐层所开发的(对于Word2Vec模型,D约为300)。N个输入节点从第一输入节点I1到第N输入节点IN。D个隐藏节点的范围为从第一隐藏节点H1到第D隐藏节点HD。N个输出节点类似于N个输入节点,因此范围为从第一输出节点O1到第N输出节点ON。在对语料库进行训练之后,产生的Word2Vec神经网络系数形成[N×D]矩阵(N行和D列),其被表示为对应语料库的向量模型。N个独热输入向量中的每个映射到形成向量模型的[N×D]矩阵中的D个维向量。感兴趣的不是神经网络本身,而是向量模型中的向量。特别地,具有相似上下文和意义的词将倾向于聚集在由N个D维向量形成的D维空间中。利用这种空间相似性,处理器可以分析文档并以类似人的方式“理解”。例如,处理器可以解析文档的上下文并向用户建议类似的文档,翻译文档,理解用户查询等。

虽然使用词嵌入的自然语言编程(NLP)非常强大,但需要相当大的语料库才能获得准确的结果。例如,Word2Vec模型是在超过1000亿词的语料库上进行训练的。NLP研究人员无法获得这样相对庞大的第三方语料库。此外,即使语料库被公开,在如此庞大的语料库上训练神经网络也是耗时且昂贵的。此外,语言在不断变化。例如,考虑最近的术语发展,诸如“假新闻(fake news)”或“寨卡病毒(Zika virus)”。由于产生的语料库的巨大规模,使用无限的新语言流增强原始语料库变得不可行。

因此,本领域需要快速更新或增强用于词嵌入的向量模型的能力。

发明内容

公开了一种方法和系统,其中由原始语料库产生的已有的向量模型可以与来自另一向量模型的向量组合以形成组合的向量模型,而不需要对原始语料库进行任何访问或使用。特别地,提供变换,使得来自已有的模型的向量和来自附加向量模型的向量可以被变换为形成组合向量模型的向量。结果是非常有利的,因为新的语料库可能相对较小,而原始语料库明显较大。将原始语料库与新的语料库组合以形成组合的语料库并在组合的语料库上训练神经网络以产生组合的向量模型将是非常繁琐的。但是,这里公开的变换消除了这种繁琐的训练,并且通过仅将来自已有的向量模型和来自新的向量模型的向量变换为新的向量模型的向量,就能够通过与新的向量模型相对应的新的语料库来增强已有的向量模型。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于株式会社NTT都科摩,未经株式会社NTT都科摩许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910107979.5/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top