[发明专利]一种改进词向量模型的语义计算方法有效

专利信息
申请号: 201710452382.5 申请日: 2017-06-15
公开(公告)号: CN107291693B 公开(公告)日: 2021-01-12
发明(设计)人: 刘志煌;刘冶;李宏浩;傅自豪;邝秋华 申请(专利权)人: 广州赫炎大数据科技有限公司
主分类号: G06F40/30 分类号: G06F40/30;G06F16/30
代理公司: 广州骏思知识产权代理有限公司 44425 代理人: 吴静芝
地址: 510000 广东省广州*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 改进 向量 模型 语义 计算方法
【说明书】:

发明提供一种改进词向量模型的语义计算方法,包括以下步骤:S1:语料预处理;S2:词性标注,对语料预处理后得到的词语进行标注词性;S3:向量初始化,对词性标注后得到的词语和词性进行向量化;S4:上下文向量整合,对词语的上下文词语向量及词性向量进行计算整合;S5:构建哈夫曼树并训练网络,优化目标函数并判断误差是否达到阈值;S6:向量获取,获取词语向量和词性向量;S7:向量应用,应用词语向量和词性向量进行语义计算。相比于现有技术,本发明在向量中加入了词性的因素,并对现有的Word2vec模型进行改进。同时,根据该改进后的模型进行了创新的应用,拓展了Word2vec进行语义计算的功能。

技术领域

本发明涉及信息科学领域,具体是一种改进Word2vec词向量模型的语义计算方法及系统。

背景技术

将自然语言交给机器学习算法来处理,需要将语言进行数学化处理,词向量化就是一种方式。进行词向量化最简单的方式为独热码表示法(One-hot Representation),该方法通过创建一个词表库,并对词库中的每个词进行顺序编号来赋予每个词一个向量,向量的分量只有一个1,其他全为0。这种词向量表示法有2个缺点:(1)容易产生维数灾难;(2)不能很好的刻画词与词之间的相似性,即语义鸿沟。为了克服这种缺陷,Hinton在1986年提出分布式表示方法(Distributed Representation),其基本思想是通过训练将每个词映射成一个固定长度的k维实数短向量(k为正整数),然后将所有向量映射到向量空间,每个向量对应空间上的一个点,在空间上计算向量与向量之间的距离,就可以判断它们之间的相似度。分布式表示法的一种生成词向量的方式是利用神经网络算法,该方法通过训练神经网络最终得到词向量和语言模型。Bengio于2003年提出神经网络语言模型(NeuralNetwork Language Model),其核心思想是利用神经网络建立N-Gram语言模型,将每个词表示成一个浮点向量,然后作为神经网络的输入,通过随机梯度算法对神经网络参数进行训练,训练完成之后同时得到语言模型和词向量。

目前比较广泛应用的词向量化方法是基于Word2vec去训练得到词向量模型,Word2vec训练词向量的过程,就是构建一个多层神经网络,然后在给定文本中获得对应的输入和输出,在训练过程中不断修正神经网络中的参数,最终得到词向量。Word2vec的核心模型就是CBOW模型(Continuous Bag-of-Words Model)和Skip-gram模型(ContinuousSkip-gram Model),CBOW模型是根据当前词上下文的2n个词来预测当前词(设词窗大小为n),它的输入是周围词向量之和,输出是当前词词向量;而Skip-gram模型是根据当前词本身来预测周围有哪些词,它的输入是当前词词向量,输出是上下文的词向量。传统Word2vec训练词向量的效果,在语义功能上体现为简单的线性关系,比如说:“男人-皇帝=女人-皇后”、“医生-手术=老师-教学”等,正是由于这个特性,使得Word2vec生成的词向量具有初步的语义推理能力。

然而,现有技术中的Word2vec没有充分考虑词性因素,而词性是训练词向量的重要信息,因为词性本身就涵盖了语义信息和语法规则,利用词性信息可以很好的结合词语的搭配顺序、规律和关系,比如形容词后面可以加名词而不能加副词,因而影响了模型对语义的深层理解。

发明内容

本发明的目的在于克服现有技术的缺点与不足,提供了一种加入词性向量因素的改进Word2vec词向量模型的语义计算方法及系统。

本发明通过以下的方案实现:一种改进词向量模型的语义计算方法,包括以下步骤:S1:语料预处理,对语料进行清理,规范化,分词操作;

S2:词性标注,对语料预处理后得到的词语进行标注词性;

S3:向量初始化,对词性标注后得到的词语和词性进行向量化;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州赫炎大数据科技有限公司,未经广州赫炎大数据科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201710452382.5/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top