[发明专利]一种词向量学习模型的训练方法及服务器在审
申请号: | 201710322632.3 | 申请日: | 2017-05-09 |
公开(公告)号: | CN107239443A | 公开(公告)日: | 2017-10-10 |
发明(设计)人: | 谢若冰;牛艺霖;刘知远;孙茂松 | 申请(专利权)人: | 清华大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30 |
代理公司: | 北京路浩知识产权代理有限公司11002 | 代理人: | 王莹 |
地址: | 100084 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 向量 学习 模型 训练 方法 服务器 | ||
技术领域
本发明实施例涉及机器学习技术领域,具体涉及一种词向量学习模型的训练方法及服务器。
背景技术
义原是单词的最小语义单元,可以使用有限个义原描述数量庞大的中文单词的语义。对于每个单词来说,这个单词拥有的义原并没有直观的表现出来,为了进行相应的研究,一些研究人员对每个单词进行了人工标注,通过语言学的知识来为每个单词分配一个或多个义原,并由此形成了一个知识库HowNet(知网)。
词向量是指将单词向量化,词向量包括有不同的维数,每一维数描述了单词的一种特征,将单词转化为词向量可以帮助计算机去理解自然语言,现有技术通过对词向量学习模型进行训练,来预测单词语义信息。但是上述词向量学习模型中的词向量没有关系到单词的最小语义单元——义原,因此,不能充分地表达单词的语义信息。
因此,如何通过义原向量或词义向量训练词向量学习模型中的词向量,使其能够充分地表达单词的语义信息,成为亟须解决的问题。
发明内容
针对现有技术存在的问题,本发明实施例提供一种词向量学习模型的训练方法及服务器。
第一方面,本发明实施例提供一种词向量学习模型的训练方法,所述方法包括:
获取训练样本文本中单词对应的词义向量和义原向量;
根据所述词义向量或所述义原向量表示所述训练样本文本中的词向量;
将由所述词义向量或所述义原向量表示的词向量代入已有的词向量学习模型,并进行模型训练。
第二方面,本发明实施例提供一种词向量学习模型的训练服务器,所述服务器包括:
获取模块,用于获取训练样本文本中单词对应的词义向量和义原向量;
表示模块,用于根据所述词义向量或所述义原向量表示所述训练样本文本中的词向量;
代入模块,用于将由所述词义向量或所述义原向量表示的词向量代入已有的词向量学习模型,并进行模型训练。
第三方面,本发明实施例提供另一种词向量学习模型的训练服务器,包括:处理器、存储器和总线,其中,
所述处理器和所述存储器通过所述总线完成相互间的通信;
所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行如下方法:
获取训练样本文本中单词对应的词义向量和义原向量;
根据所述词义向量或所述义原向量表示所述训练样本文本中的词向量;
将由所述词义向量或所述义原向量表示的词向量代入已有的词向量学习模型,并进行模型训练。
第四方面,本发明实施例提供一种非暂态计算机可读存储介质,包括:
所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行如下方法:
获取训练样本文本中单词对应的词义向量和义原向量;
根据所述词义向量或所述义原向量表示所述训练样本文本中的词向量;
将由所述词义向量或所述义原向量表示的词向量代入已有的词向量学习模型,并进行模型训练。
本发明实施例提供的词向量学习模型的训练方法及服务器,通过义原向量或词义向量表示词向量,并训练由词义向量或义原向量表示的词向量对应的词向量学习模型,使其能够充分地表达单词的语义信息。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例词向量学习模型的训练方法流程示意图;
图2为本发明实施例词向量学习模型的训练服务器结构示意图;
图3为本发明实施例提供的服务器实体结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明实施例词向量学习模型的训练方法流程示意图,如图1所示,本发明实施例提供的一种词向量学习模型的训练方法,包括以下步骤:
S1:获取训练样本文本中单词对应的词义向量和义原向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710322632.3/2.html,转载请声明来源钻瓜专利网。